文本分析器
關(guān)鍵字分析器
介紹:不分詞,適合一些需要精確匹配的場景。如標(biāo)簽、關(guān)鍵詞等,不分詞的字符串或數(shù)值內(nèi)容。
注意:該分析器適用于LITERAL、INT、LITERAL_ARRAY、INT_ARRAY字段類型。
舉例:
例如:文檔字段內(nèi)容為“菊花茶”,則只有搜索“菊花茶”的情況下可以召回。
中文-通用分析器
介紹:按照檢索單元做分詞,基于中文語義分詞,適用于全網(wǎng)通用行業(yè)的分析器。屬于行業(yè)分析類型。
注意:該分析器適用于TEXT、SHORT_TEXT字段類型。
舉例:
例如:文檔字段內(nèi)容為“菊花茶”,則搜索“菊花茶”、“菊花”、“茶”、“花茶”等情況下可以召回。
中文-電商分析器
介紹:適用于電商行業(yè)的分析器。
注意:該分析器適用于TEXT、SHORT_TEXT字段類型。
舉例:
例如:文檔字段內(nèi)容為“大寶SOD蜜”,則搜索“大寶”、“sod”、“sod蜜”、“SOD蜜”、“蜜”等情況下均可以召回。
中文-單字分析器
介紹:按照單字/單詞分詞,適合非語義的中文搜索場景,如小說作者名稱、店鋪名等。
注意:該分析器適用于TEXT、SHORT_TEXT字段類型。
舉例:
例如:文檔字段內(nèi)容為“菊花茶”,則搜索“菊花茶”、“菊花”、“茶”、“花茶”、“菊”、“花”、“菊茶”等情況下可以召回。
模糊分析器
介紹:支持拼音搜索、數(shù)字的前后綴搜索(中文不支持前后綴匹配搜索,字母,數(shù)字及拼音,這些都支持前后綴匹配)、單字或者單字母搜索。最多支持100個字節(jié)字段長度,更多介紹及注意事項(xiàng)參見模糊搜索。
注意:僅適用于SHORT_TEXT短文本類型。
舉例:
例如:文檔字段內(nèi)容為“菊花茶”,則搜索“菊花茶”、“菊花”、“茶”、“花茶”、“菊”、“花”、“菊茶”、“ju”、“juhua”、“juhuacha”、“j”、“jh”、“jhc”等情況下可以召回。
例如:文檔字段內(nèi)容為手機(jī)號“138****5678”,則通過“^138”來搜索以“138”開頭的手機(jī)號,通過“5678$”搜索以“5678”結(jié)尾的手機(jī)號。
例如:文檔字段內(nèi)容為“OpenSearch”,則通過單個字母或者組合都可以檢索到。
英文-去詞根分析器
介紹:適合于英文語義搜索場景,對于分詞后的每個英文單詞默認(rèn)會做去詞根、單復(fù)數(shù)轉(zhuǎn)化。
注意:該分析器適用于TEXT、SHORT_TEXT字段類型。
舉例:
例如:文檔字段內(nèi)容為“英文分詞器 english analyzer”,則搜索“英文分詞器”、“english”、“analyz”、“analyzer”、“analyzers”、“analyze”、“analyzed”、“analyzing”等情況下可以召回。
(注意:英文分詞器中連續(xù)的中文會被分成一個詞)
英文-不去詞根分析器
介紹:用于英文書名、人名等搜索場景,按照空格及標(biāo)點(diǎn)符號做分詞。
注意:該分析器適用于TEXT、SHORT_TEXT字段類型。
舉例:
例如:文檔字段內(nèi)容為“英文分詞器 english analyzer”,則搜索“英文分詞器”、“english”、“analyzer”等情況下可以召回。
(注意:英文分詞器中連續(xù)的中文會被分成一個詞)
英文-小粒度分析
介紹:按照英文檢索單元做分詞,英文語義分詞,適用于英文通用行業(yè)的分析器。
注意:僅適用于TEXT、SHORT_TEXT字段類型。
僅限規(guī)格為獨(dú)享型的應(yīng)用可用。
舉例:
文檔字段內(nèi)容為"dataprocess",分詞結(jié)果"data process", 則搜索"dataprocess"、"data process"、"data"、"process"等情況下可以召回。
拼音全拼分析器
介紹:支持對短文本中的漢字,按照首字母和拼音全拼進(jìn)行檢索。適用于人名、電影名等需要簡拼和全拼搜索的場景,而且全拼檢索時必須輸入漢字的全拼,不能只輸部分。
注意:僅適用于SHORT_TEXT短文本類型。
舉例:
例如:文檔字段內(nèi)容為“大內(nèi)密探007”,則搜索“d”、“dn”、“dnm”、“dnmt”、“dnmt007”、“da”、“danei”、“daneimi”、“daneimitan”等都可以召回。搜索“an”、“anei”等無法召回。
拼音簡拼分析器
介紹:支持對短文本中的漢字,按照首字母進(jìn)行檢索。適用于人名、電影名等需要簡拼搜索的場景。
注意:僅適用于SHORT_TEXT短文本類型。
舉例:
例如:文檔字段內(nèi)容為“大內(nèi)密探007”,則搜索“d”、“dn”、“dnm”、“dnmt”、“dnmt0”、“dnmt007”、“m”、“mt”、“mt007”、“007”等都可以召回。
簡單分析器
介紹:適合特殊場景下系統(tǒng)自帶無法解決的搜索場景,可以實(shí)現(xiàn)完全用戶控制的效果。推送文檔及搜索時使用制表符“\t”對字段內(nèi)容(或查詢詞)進(jìn)行分隔,注意二者分詞的一致性,否則會導(dǎo)致無法召回文檔的情況。
注意:該分析器適用于TEXT、SHORT_TEXT字段類型。
舉例:
例如:字段內(nèi)容為“菊\t花茶\thao”,則只有查詢詞“菊”、“花茶”、“菊\t花茶”、“花茶\thao”、“菊\thao”、“菊\t花茶\thao”可以召回該文檔。
數(shù)值分析器
介紹:適合需要按時間區(qū)間查詢和數(shù)值類區(qū)間查詢的搜索場景。
注意:該分析器適用于INT、timestamp字段類型。
舉例:
例如:query=default:'開放搜索' AND index:[number1,number2]
//此處index為配置了數(shù)值分析的索引名字。
地理位置分析器
介紹:適用于需要地理位置區(qū)間查詢的場景。
注意:僅適用于geo_point字段類型。
舉例:
例如:query=spatial_index:'circle(116.5806 39.99624, 1000)'
//查詢圓內(nèi)的點(diǎn), 可以用于附近若干公里的點(diǎn)查詢
IT內(nèi)容分析器
介紹:適用于面向IT行業(yè)的技術(shù)性內(nèi)容的分析器,屬于行業(yè)分詞;和通用分析器相比,對一些IT技術(shù)相關(guān)的詞分詞結(jié)果會不一樣。
注意:僅適用于TEXT,SHORT_TEXT字段類型。
舉例:
例如:原始內(nèi)容:c++數(shù)組使用注意事項(xiàng)
通用分析:c ++數(shù)組使用注意事項(xiàng)
IT-內(nèi)容分析:c++數(shù)組使用注意事項(xiàng)
行業(yè)-電商通用分析
介紹:適用于面向電商行業(yè)場景的分析器,屬于行業(yè)分詞。開發(fā)搜索根據(jù)多年積累的行業(yè)并借助達(dá)摩院智能語言處理技術(shù),貼合行業(yè)痛點(diǎn)與需求,提供了電商專屬查詢分析能力。
注意:
僅適用于TEXT字段類型;
僅限規(guī)格為電商行業(yè)增強(qiáng)的獨(dú)享型應(yīng)用可用。
舉例:
例如:原始內(nèi)容:小金管遮瑕膏
通用分析:小金管 遮瑕 膏
行業(yè)-電商通用分析:小金管 遮瑕 膏
泰語-通用分析
介紹:按照泰語檢索單元做分詞,適用于泰語通用行業(yè)的分析器。
注意:僅適用于TEXT、SHORT_TEXT字段類型;
僅限規(guī)格為獨(dú)享型的應(yīng)用可用。
舉例:
文檔字段內(nèi)容為"????????????????????????",分詞結(jié)果"????? ??? ??? ?????????????", 則搜索"?????????????"、"????????????????????????"等情況下可以召回。
泰語-電商分析
介紹:適用于泰語電商行業(yè)的分析器。
注意:僅適用于TEXT,SHORT_TEXT字段類型;
僅限規(guī)格為獨(dú)享型的應(yīng)用可用。
舉例:
文檔字段內(nèi)容為"??????????????", 分詞結(jié)果為"?????? ????????", 則搜索"??????????????", "??????", "????????"可以被召回
越南語-通用分析
介紹:適用于越南語通用行業(yè)的分析器。
注意:僅適用于TEXT、SHORT_TEXT字段類型;
僅限規(guī)格為獨(dú)享型的應(yīng)用可用。
行業(yè)-游戲通用分析
介紹:適用于游戲行業(yè)的分析器。
注意:僅適用于TEXT,SHORT_TEXT字段類型;
僅限規(guī)格為游戲行業(yè)增強(qiáng)的獨(dú)享型應(yīng)用可用。
舉例:
文檔字段內(nèi)容為"原神裝備", 分詞結(jié)果為"原神 裝備", 則搜索"原神裝備", "原神", "裝備"等可以被召回
行業(yè)-英文電商通用分析
介紹:適用于英文場景下的電商行業(yè)的分析器。
注意:僅適用于TEXT字段類型;
僅限規(guī)格為電商行業(yè)增強(qiáng)的獨(dú)享型應(yīng)用可用。
中文-字符分析
介紹:按照中文單字/數(shù)字/英文/標(biāo)點(diǎn)符號分詞,適合非語義的搜索場景。
注意:僅適用于TEXT、SHORT_TEXT字段類型;
僅限規(guī)格為獨(dú)享型應(yīng)用可用。
舉例:
例如:文檔字段內(nèi)容為“開放搜索OpenSearch123.”,則搜索“開”、“放”、“搜”、“索”、“O”、“p”、“e”、“n”、“S”、“e”、“a”、“r”、“c”、“h”、“.”情況下都可以召回。
文本-自定義分析器
介紹:行業(yè)分析器(通用分析/電商分析/人名分析)+自定義干預(yù)詞條。具體用法參考文本-自定義分析器文檔。
注意:僅適用于TEXT、SHORT_TEXT字段類型。
分析測試
行業(yè)分析器以及自定義分析器的分析結(jié)果可以通過分析測試功能進(jìn)行測試。前往應(yīng)用控制臺的應(yīng)用列表界面 -> 搜索算法中心 -> 召回配置 ->分析器管理 -> 分詞測試,進(jìn)行分析器分析結(jié)果的測試。(如下圖)
適用場景
有語義環(huán)境的中文搜索,建議使用中文語義分析器;
對于短文本或者非語義環(huán)境中文搜索(對排序沒有太多要求),建議使用中文單字分析器來擴(kuò)大召回;
拼音搜索請使用模糊分析器;
英文場景下請使用英文去詞根分析器;
某些場景下,中文語義分析器及單字分析器搭配使用,可以獲得非常好的搜索效果。如查詢query=title_index:’菊花茶’ OR sws_title_index:’菊花茶’,精排表達(dá)式為:text_relevance(title)*5+field_proximity(sws_title)。可以實(shí)現(xiàn)包含“xx菊xx花xx茶xx”的文檔,且排序上“菊花茶”會排在前面。
注意事項(xiàng)
支持創(chuàng)建為索引字段的類型
INT,INT_ARRAY,TEXT,SHORT_TEXT,LITERAL,LITERAL_ARRAY,TIMESTAMP,GEO_POINT
不支持創(chuàng)建為索引字段的類型
FLOAT,F(xiàn)LOAT_ARRAY,DOUBLE,DOUBLE_ARRAY
如果TEXT字段設(shè)置了搜索結(jié)果摘要,擴(kuò)展檢索單元部分詞組(如上例中的“花茶”)將不會被添加飄紅標(biāo)簽。
中文單字分析器對于數(shù)字跟單詞認(rèn)為是一個詞,如“hello word”,搜索“hello”可以召回,搜索“he”則無法召回,敬請注意。若需要做單詞內(nèi)召回,請選擇模糊分析器。
應(yīng)用結(jié)構(gòu)中的主表的主鍵,默認(rèn)會被設(shè)置為索引字段,且索引字段名稱默認(rèn)為“id” ,不支持修改配置。