召回定制分析器
功能簡介
分詞作為搜索引擎中一個重要的基礎(chǔ)組件,分詞效果會直接影響搜索結(jié)果。由于業(yè)務(wù)場景的多樣性,不同行業(yè)不同客戶都有各自的特殊性,只有具體到客戶應(yīng)用級別的定制分詞才能對每一個客戶分詞效果做到保障。
召回定制功能就是由此產(chǎn)生,OpenSearch-行業(yè)算法版首先提供了豐富的面向特點領(lǐng)域的行業(yè)分析器,客戶可以基于對應(yīng)的行業(yè)分析器,經(jīng)過簡單的配置訓(xùn)練得到自己專屬的定制分析器。整個定制過程無需客戶進行額外的數(shù)據(jù)對接工作,召回定制模型訓(xùn)練會自動抽取客戶已有數(shù)據(jù)進行適配。
定制召回模型按照存儲容量、計算資源、模型訓(xùn)練收費,具體價格請參考計費概述
快速搭建
定制召回模型從創(chuàng)建到使用需要經(jīng)過以下三個步驟:
創(chuàng)建并訓(xùn)練模型;
創(chuàng)建自定義分析器;
配置自定義分析器;
創(chuàng)建并訓(xùn)練模型
在搜索算法中心>召回配置>定制召回模型界面,選擇對應(yīng)的獨享型應(yīng)用,點擊創(chuàng)建:
填寫模型名稱,選擇模型類型,選擇基礎(chǔ)分析器,選擇訓(xùn)練字段,勾選歸一化配置,點擊確定:
其中基礎(chǔ)分析器包括:中文-通用分析、中文-電商分析、IT內(nèi)容分析、行業(yè)-游戲通用分析,行業(yè)-教育搜題、行業(yè)-內(nèi)容IT分析、行業(yè)-電商通用分析。
歸一化配置可選擇:大寫轉(zhuǎn)小寫、繁體轉(zhuǎn)簡體、全角轉(zhuǎn)半角,該參數(shù)可多選,非必選。(該選項只在查詢時統(tǒng)一歸一化,原字段內(nèi)容不受影響)
模型名稱在模型創(chuàng)建后無法修改;
訓(xùn)練字段僅支持short_text、text類型;
創(chuàng)建完成后, 新創(chuàng)建的模型默認(rèn)狀態(tài)為模型不可用,在定制召回模型列表頁操作一欄中點擊訓(xùn)練模型:
模型訓(xùn)練一般在1-2個工作日內(nèi)完成。
模型可重復(fù)訓(xùn)練,每次訓(xùn)練完成后,會在詳情頁中訓(xùn)練歷史下新增一個模型版本,編號逐一遞增。
創(chuàng)建自定義分析器
當(dāng)定制召回模型訓(xùn)練成功后(模型狀態(tài)為可用),即可配置自定義分析器。
在搜索算法中心>分析器管理頁面,選擇文本分析器,點擊創(chuàng)建:
輸入名稱,選擇分析器類型為定制模型分析,選擇對應(yīng)的Ha3引擎實例,選擇對應(yīng)的定制分析器模型,點擊保存:
創(chuàng)建完成后,可使用定制自定義分析器進行分詞測試,以及詞條管理等功能:
配置自定義分析器
自定義分析器創(chuàng)建完成后,即可通過線下變更將已配置定制召回模型的定制化分析器應(yīng)用索引中。
在實例管理>Ha3引擎列表頁,找到對應(yīng)的應(yīng)用,進入詳情頁,點擊線下變更:
在配置索引結(jié)構(gòu)頁面,找到對應(yīng)的索引,替換成已配置定制召回模型的定制化分析器,并選項需要生效的模型版本:
完成線下變更,操作等待索引重建完成:
索引重建結(jié)束,即可在搜索測試界面測試效果:
詳情頁說明
定制召回模型列表頁介紹
定制召回模型列表包含模型名稱、模型類型、模型狀態(tài)(可用、不可用)、最后訓(xùn)練開始時間、最新版本狀態(tài)、操作(詳情、訓(xùn)練模型、刪除)。
已被引用的定制召回模型不可刪除;
最新版本狀態(tài)為訓(xùn)練中,則重新訓(xùn)練按鈕不可點擊;其他狀態(tài)下可點擊重新訓(xùn)練;
定制召回模型詳情頁說明
詳情頁分三部分:
基本信息(只讀):包含創(chuàng)建時間、模型狀態(tài)、最后訓(xùn)練開始時間、最新版本狀態(tài)字段。
配置型信息(只讀):包含基礎(chǔ)分析器、訓(xùn)練字段、歸一化配置字段,為創(chuàng)建/配置模型時選擇的配置信息。
訓(xùn)練歷史:包含模型版本、配置信息、版本狀態(tài)、訓(xùn)練開始時間、訓(xùn)練結(jié)束時間、引用索引,其中可對模型進行效果測試:
效果對比支持典型case對比內(nèi)容下載:
功能限制
該功能僅支持行業(yè)算法版-獨享集群中應(yīng)用;
單個實例最多創(chuàng)建5個定制模型;
基于應(yīng)用創(chuàng)建的定制召回模型不可跨應(yīng)用配置;
近期定制分析器的類型僅開放文本分析器;