功能簡介
在進行搜索文本召回前,開放搜索會對用戶輸入關鍵詞進行查詢語義分析和處理。其中,同義詞功能主要是對查詢詞進行同義擴展,擴大召回和查詢詞同義的文檔。由于業務場景的多樣性,不同行業不同業務都有各自的特殊性,只有具體到應用級別的同義詞模型才能保障最優的搜索效果。
OpenSearch提供了豐富的面向特定領域的同義詞模型,用戶可以基于對應的行業分析器,經過簡單的配置訓練得到專屬的定制同義詞模型。整個定制過程,同義詞模型訓練會自動抽取已有數據進行適配(如果用戶已有一些個性化的同義詞數據也支持導入優化訓練模型,詳情可聯系技術同學)。
定制召回模型按照存儲容量、計算資源、模型訓練收費,具體價格請參考OpenSearch-行業算法版計費概述。
快速搭建
召回定制-同義詞模型從創建到使用需要經過以下三個步驟:
創建召回定制-同義詞模型并開啟訓練;
配置查詢分析并引用已訓練的召回定制-同義詞模型;
根據業務需求通過干預詞典調整召回定制-同義詞模型;
創建并訓練模型
登錄開放搜索管理控制臺,在依次點擊OpenSearch-行業算法版->搜索算法中心->召回配置->定制召回模型->創建:
按要求填寫模型名稱,選擇同義詞模型并選擇訓練字段,最后點擊確認:
模型名稱在模型創建后無法修改;
訓練字段僅支持short_text、text類型;
同義詞模型即可創建完成:
創建完成后, 新創建的模型狀態為模型不可用,最新版本狀態為待訓練,在定制召回模型列表頁操作一欄中點擊訓練模型:
模型訓練根據數據量的大小不同、耗時也不同,一般數小時即可訓練完成;
模型可重復訓練,每次訓練完成后,會在詳情頁中訓練歷史下新增一個模型版本,編號逐一遞增。
已訓練完成的同義詞模型的模型狀態為可用,最新版本狀態為已訓練并就緒:
配置查詢分析
配置查詢分析規則時,勾選同義詞功能,在其詞典使用中選擇定制模型,定制同義詞模型選擇上述新建的模型,定制同義詞模型版本選擇最新版本,干預詞典可選,配置完成后,點擊確認:
詳情頁說明
同義詞模型列表頁介紹
同義詞模型類列表頁
同義詞模型列表包含模型名稱、模型類型、模型狀態、最后訓練開始時間、最新版本狀態、操作等。
已被引用的定制召回模型不可刪除;
同義詞模型詳情頁介紹
詳情頁包含基本信息、配置信息、訓練歷史三個部分。
1、定制同義詞模型訓練成功后可點擊詳情后在點擊引用規則下的查看,展示引用當前同義詞模型的查詢分析規則
2、查看效果測試
3、查看效果對比
同義詞模型可選系統內置模型、當前模型的不同版本,點擊對比后,在下方展示同義詞效果對比
典型case對比展示最多200個同義詞結果不同的情況,包含文本、同義詞模型1結果、同義詞模型2結果
可在測試文本中輸入測試query,測試相應的同義詞結果
搜索測試頁面展示
可以在開放搜索管理控制臺,左側菜單依次點擊OpenSearch-行業算法版->功能擴展->搜索測試頁面,測試效果:
如需查看每次搜索的請求消耗了多少計算資源,可以添加自定義參數:fetch=result:compute_cost,并開啟源碼模式:
如果雙模型或多模型進行索引搜索時中間以OR做連接:
功能限制
該功能僅在行業算法版-獨享集群實例中支持;
單個實例最多創建5個定制模型,單個模型的版本個數最多為3個;
基于應用創建的定制召回模型不可跨應用配置;