社區內容通常包括UGC和PGC。由于關鍵詞和內容多樣性豐富、用詞規范程度參差不齊,搜索引擎需要對關鍵詞和內容進行智能語義分析,識別出用戶真正的查詢意圖,找到最全面最相關的結果滿足用戶需求。本文將詳細介紹如何通過“開放搜索(OpenSearch)內容增強版”在社區論壇場景的應用,提升用戶搜索體驗。
社區的核心是用戶,用戶進入社區的主要目的是為了消費內容。內容可以是廣義的圖文、音頻、視頻,也可以是通過社區找到解決問題的方法。優質的內容能提升用戶的活躍度,為平臺帶來流量與時長,實現用戶增長和留存,獲得更多業務機會和收益。
"搜索"作為社區直接獲取內容的最有效途徑,每個社區都在不斷解決下面的搜索效果問題:
如何準確理解用戶的搜索意圖,返回最匹配的結果?
如何通過內容傳播的差異化,個性化來提升用戶的搜索體驗,增強社區歸屬感和忠誠度?
如何在社區里不同領域,不同垂類,不同頻道間的內容召回中實現交互和連接?
如何實現非商業化內容與商業化內容更好的融合與發展?
本文將帶著以上幾個思考,為大家解析內容社區行業搜索特點和挑戰,以及介紹阿里云智能開放搜索-內容社區行業增強版的解決方案和應用實踐。
內容行業搜索業務需求
?更多的曝光機會——無結果率低; ?更好的搜索質量——搜索相關性高,更高質量的排序; ?更豐富的業務特征——結合業務特性調整搜索結果; ?更全面的配套功能——智能糾錯、熱搜、底紋、下拉提示等配套能力; ?更低的擁有成本——相較自建搜索引擎更低的開發、資源、運維成本; ?更便捷的開發使用——上線周期短,降低搜索引擎開發、效果調優難度;
? 用戶搜索意圖指向性強——主搜聚集多個頻道內容,搜索結果相關性要求更加精準;
以某論壇社區為例,產品線覆蓋多個平臺,包含網頁、APP、小程序等形式,同時業務上區分多個頻道。隨著業務的發展,首頁綜合搜索(后簡稱“主搜”)的流量越來越大,各種付費、引流業務接入,對搜索流量的運營變得更加重要,對主搜的業務訴求越來越多,需要聚合多個頻道的內容,同時搜索結果相關性要求更加精準,在考慮文本相關性的前提下,要加入更多的商業因素考慮。 成熟的搜索引擎涉及離線模塊、在線模塊、查詢理解服務、算法平臺等系統,所需大量開發、算法調優以及持續的復雜運維工作,由于人力有限,自建搜索系統很難滿足業務需求。
常見搜索業務場景
博文、問答、心得分享等內容搜索
精品內容、熱帖發現
付費資源引流
標簽分類過濾、篩選
(配圖來自阿里云開發者社區)
熱門活動、話題互動
PGC、UGC
熱搜、底紋、下拉提示等搜索引導
個性化、時效性
(配圖來自阿里云開發者社區)
開放搜索內容社區增強版
方案架構
功能介紹
內容行業增強版基于阿里巴巴最新算法功能,貼合不同垂類內容搜索場景的痛點和需求,提供了內容行業專屬的智能語義理解能力、向量召回、排序算法,為內容行業的搜索性能和效果準確性提供雙重保障,并有效的解決了超大詞庫數據導致的搜索延遲高、資源消耗大、搜索無結果率高等行業重難點問題。針對內容行業,開放搜索還提供了向量模型,以實現向量召回及多路搜索,提高查詢準確率,并提供多模態搜索解決方案。
1、功能差異
功能列表 | 通用版 | 內容行業增強版 |
一站式配置 | 創建應用后,需要手動創建并配置查詢分析、排序策略和下拉提示模型。 | 結合內容行業常見搜索場景,選擇所需能力及功能,同時提供應用結構模板和索引結構模板,實現一鍵式配置,降低新用戶使用門檻。 |
查詢分析 | 針對通用行業提供同義詞拓展、停用詞省略、拼寫糾錯、詞權重分析、類目預測等能力。 | 針對內容行業,提供增強版分析器與查詢分析功能。結合內容搜索場景及行業難題,更精準的構建索引并識別用戶查詢意圖,與通用版相比效果更優。 |
策略排序 | 創建應用后,需要結合業務場景手動配置并調試相應的排序策略。 | 在應用結構模板和索引結構模板基礎上,提供內容行業常用排序表達式,無需額外配置即可滿足大部分內容行業排序效果需求。 |
功能迭代 | 定期更新分析器、查詢分析等系統默認詞典。 | 根據內容行業的名詞、產品等變化,不斷迭代更新,優化原有分詞、查詢分析能力,提供更高時效性的服務保障。 |
2、查詢分析效果對比
行業增強版較通用版相比在查詢分析功能上做出了更深入的優化,不僅在通用版的基礎上更新了常見bad case,而且針對內容行業集各家之所長,豐富已有詞庫。
分詞:(以空格分詞)
query | 通用版 | 行業增強版 |
為了解壓縮 | 為 了解 壓縮 | 為了 解 壓縮 |
實參與形參 | 實 參與 形參 | 實參 與 形參 |
結構體重載 | 結構 體重 載 | 結構體重載 |
googlechromeframe | googlechromeframe | google chrome frame |
拼寫糾錯
:
query | 通用版 | 行業增強版 |
淘寶只能視覺 | 淘寶只能視覺 | 淘寶智能視覺 |
mybatics代碼生成 | mybatics代碼生成 | mybatis代碼生成 |
計算機網路 | 計算機網路 | 計算機網絡 |
微行小程序 | 微型小程序 | 微信小程序 |
深度學西 | 深度學西 | 深度學習 |
針對內容行業的垂類行業數據分布提供高質量的向量召回模型,保證長尾query,包含錯別字query,依賴同義詞改寫召回query的召回效果
向量召回
query | 美國gmted2010的shuju下載 |
向量召回top1 | gmt43相關代碼、資料下載地址 |
向量召回top2 | gmt0054-2010.pdf |
向量召回top3 | gmted2010美國download地址 |
query | 3D游戲畫面處理 |
向量召回top1 | 3d游戲動畫處理基礎 |
向量召回top2 | 3d游戲動畫的基礎 |
向量召回top3 | 動畫游戲處理 |
query | 禁用n卡 |
向量召回top1 | 網卡的禁止和啟動 |
向量召回top2 | 禁用網卡 |
向量召回top3 | 禁用及啟用網卡 |
基于Seq行為建模,實現個性化搜索
例如:用戶連續搜索:“面試”,“Java”兩個詞和用戶只搜索“Java”的結果是有差異的,實現個性化召回,針對性滿足不同用戶的搜索需求,提示用戶搜索體驗。
深度排序模型DeepRanking
模型參數規模可以達到1000億級別,保障更優搜索效果,且模型訓練、使用成本低,遠低于自研人力+機器+研發支持所用成本。
深度召回模型集合阿里云達摩院的NLP能力,提升搜索效果,降低無結果率
針對用戶和數據特點,結合阿里巴巴長期技術積累,深度定制模型結構,做到Make for you的特有深度模型結構。
增強版接入流程
輕松接入,快速上手,一鍵式接入行業模板,可根據自身業務自定義選擇功能,并滿足非技術人員業務干預調優與數字化運營需求。
表結構設計
詳情可參考應用結構--->創建多表join。
數據接入
開放搜索支持用戶通過數據源將數據接入搜索,也支持無數據源,通過API/SDK/控制臺上傳文件的方式導入數據詳情如下:
內容社區行業模板配置
功能選擇,垂類選擇“IT”行業為例,模板功能可自行勾選(默認全選)
其中模板功能包括:查詢分析(IT詞權重、IT同義詞包、文本向量化等)、排序策略(多路搜索、文本相關性、向量相關性)、下拉提示。
搜索測試
如需使用“IT
向量索引
”搜索,需要先配置查詢分析-文本向量化功能,并添加對應的IT
向量索引
:
在搜索測試中進行測試:
效果定制服務
如果有深度召回、排序效果調優、個性化搜索需求,開放搜索團隊專家支持效果定制服務,請咨詢技術支持或商務同學。
案例實踐
某技術社區作為中文IT內容社區,致力于為中國軟件開發者提供知識傳播、在線學習、職業發展等全生命周期服務,旗下包括多款產品。
自開始接觸阿里云開放搜索產品,在一年的時間里陸續接入PC端、移動端的多個平臺,覆蓋首頁搜索、博客、下載、問答等細分業務的頻道搜索。通過開放搜索,為旗下產品的用戶提供高質量的搜索服務,并通過搜索能力的優化帶來更多的業務轉化,提升整體業務收入。
對比基于開源自建的服務CTR提升超過80%
后續算法專家通過深度定制模型不斷幫客戶調優,每曝光用戶帶來點擊次數提升16.7%,Item-CTR提升11.8%,效果還在持續提升中;