日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

教育行業模板-多路搜索

介紹

OpenSearch的多路搜索功能結合了文本搜索和向量搜索,做到了搜索延遲和計算消耗低于OR邏輯情況下更高的準確性,并在搜題場景已經得到有效驗證。多路召回架構還可以使用到:圖片向量召回、公式召回、個性化召回等場景中。image

純文本查詢與多路搜索在搜題場景下的對比

為什么搜題要做多路召回?教育拍照搜題場景相比網頁/電商的文本搜索有顯著差異:

  • 搜索Query特別長:常規檢索term數上限30,搜題可能需要100

  • 搜索Query可能是由拍照OCR識別之后得到的文本,關鍵term的識別錯誤會嚴重影響召回排序

純文本查詢方案

1.OR邏輯查詢:

  • 為了降低無結果率,搜題客戶常見的系統是基于ES默認的OR邏輯,搜索延遲高,計算消耗大

  • OpenSearch也支持OR邏輯,針對搜索延遲高可以通過并行搜索的方式優化,但整體計算消耗仍然高?

2.AND邏輯查詢

  • 采用通用的Query分析模塊,無結果率高,整體準確性不如OR邏輯

  • 針對教育領域優化定制的Query分析模塊,大幅提高效果,準確性接近OR邏輯

?

文本向量檢索

目標:通過文本向量檢索擴召回,結合AND邏輯查詢,做到搜索延遲和計算消耗低于OR邏輯的情況下準確性更高向量召回采用BERT模型,其中針對教育搜題做的特別優化有:

  • BERT模型采用達摩院自研的StructBERT,并針對教育行業定制模型

  • 向量檢索引擎采用達摩院自研的proxima引擎,準確性和運行速度遠超開源系統

  • 訓練數據可以基于客戶的搜索日志不斷積累,效果持續提

效果:

  1. 召回率達到OR邏輯

  2. 準確性超出OR邏輯3%-5%

  3. 整體召回doc數量減少40倍,搜索延遲降低10倍以上

教育行業模板的多路搜索配置

1.配置教育行業模板,行業模板配置完成后檢查是否配置了對應的向量索引(這里用的是“向量-教育向量k12”):image2.創建查詢分析,增加一個“文本向量化”功能,并配置上1中設置的向量索引:image3.設置排序策略,教育行業模板默認會創建兩個CAVA腳本的業務排序(sys_text_rank-針對文本索引、sys_vector_rank- 針對向量索引):image

4.創建多路召回策略,步驟為:設置策略名稱 --> 多路搜索配置(向量索引,文本索引) --> 配置綜合排序(排序邏輯,參與排序的文檔數量) :image

5.控制臺測試

假設查詢query為:搜索測試,多路搜索查詢策略為sys_strategy,查詢分析規則為sys_defaultimage:圖中的三個參數,缺一不可(查詢分析如果設置為默認,這里可以省略)。查詢請求格式:

query=default:'搜索測試'&search_strategy=sys_strategy&raw_query=搜索測試&qp=sys_default

SDK參數配置:(以Java為例)

...
   
//定義Config對象,用于設定config子句參數,用于分頁或設置數據返回格式
Config config = new Config(Lists.<String>newArrayList(appName));
config.setStart(0);
config.setHits(10);
?
//設置返回格式為json
config.setSearchFormat(SearchFormat.FULLJSON);
?
?
// 創建參數對象
SearchParams searchParams = new SearchParams(config);
?
//設置查詢需要傳入的參數
HashMap<String,String> paraMap=new HashMap<String,String>();
//設置raw_query
paraMap.put("raw_query","搜索測試");
//設置多路搜索
paraMap.put("search_strategy","sys_strategy");
searchParams.setCustomParam(paraMap);
?
//設置查詢分析
List<String> qpName = new ArrayList<String>();
qpName.add("sys_default");  //設置查詢分析名稱
searchParams.setQueryProcessorNames(qpName);
?
...

注意事項

  • 多路召回功能目前只針對獨享型應用進行開放;

  • 多路召回功能暫不支持aggregate、distinct子句;

  • 每個應用最多創建10個多路召回的查詢策略;

  • 多路搜索配置中,文本搜索向量搜索是必選項,并且二者的召回結果占比和需為100%;

  • 多路搜索配置中,文本搜索向量搜索的基礎排序從排序配置-基礎排序中選擇,業務排序從排序配置-業務排序中選擇;

  • 綜合排序配置中,歸并排序從業務排式中選擇,必選,也可以選擇“無”,默認選擇“無”,排序文檔數量為必填,最多為5000,需填寫大于0的值;

  • 非系統自動生成的向量索引,無法在查詢分析文本向量化功能中選擇。

  • 如需使用自建向量索引的多路搜索功能,請聯系我們。