實(shí)體識(shí)別
功能介紹
實(shí)體識(shí)別,全稱命名實(shí)體識(shí)別(Named Entity Recognition,簡稱NER),指對(duì)查詢?cè)~中的具有特定意義的語義實(shí)體進(jìn)行識(shí)別。查詢分析根據(jù)識(shí)別的結(jié)果,依據(jù)實(shí)體類型的權(quán)重對(duì)查詢?cè)~進(jìn)行改寫,使得召回的文檔符合查詢的意圖。目前,OpenSearch的實(shí)體識(shí)別只支持電商行業(yè)。主要實(shí)體類型如下:
類別 | |||
普通詞 | 材質(zhì) | 風(fēng)格 | 款式元素 |
顏色 | 品牌 | 功能功效 | 尺寸規(guī)格 |
品質(zhì)成色 | 場(chǎng)景 | 人群 | 套裝 |
時(shí)間季節(jié) | 型號(hào) | 新品 | 系列 |
營銷服務(wù) | 地點(diǎn)地域 | 人名 | 文娛書文曲 |
機(jī)構(gòu)實(shí)體 | 影視名稱 | 游戲名稱 | 數(shù)字 |
單位 | 品類 | 新詞 | 修飾 |
專有名詞 | 品類修飾詞 | 符號(hào) | 前綴 |
后綴 | 贈(zèng)送 | 否定 | 代理 |
實(shí)體識(shí)別作用
在查詢分析中,實(shí)體識(shí)別主要的作用于query改寫和類目預(yù)測(cè)查詢中。
Query改寫
OpenSearch的查詢分析最多改寫出來兩個(gè)query,第一個(gè)Query相比第二個(gè)Query會(huì)更精準(zhǔn),第二個(gè)query減少了參與召回的term,旨在當(dāng)更精確的召回結(jié)果數(shù)不足時(shí),用第二個(gè)query進(jìn)行擴(kuò)大召回。
Query改寫主要根據(jù)實(shí)體的重要性,對(duì)query進(jìn)行改寫,召回時(shí)保留重要性高的實(shí)體詞,對(duì)重要性低的部分不影響召回,只影響算法排序。實(shí)體的重要性目前分為3檔,分別是高、中、低。
Query改寫的規(guī)則如下:
重要性高的實(shí)體,其優(yōu)先級(jí)完全一樣,肯定會(huì)參與召回;
重要性低的實(shí)體,始終不參與召回;
重要性中的實(shí)體,其優(yōu)先級(jí)按其在查詢分析中配置的順序依次遞減,改寫規(guī)則:
當(dāng)query中有重要性高的實(shí)體時(shí),重要性中的實(shí)體在第一個(gè)query中參與召回,第二個(gè)query不參與召回;
當(dāng)query中沒有重要性高的實(shí)體時(shí),重要性中的實(shí)體在第一個(gè)query中參與召回,在第二個(gè)query中,優(yōu)先級(jí)最高的那個(gè)實(shí)體類型的詞會(huì)參與召回,其他的都不參與召回。
當(dāng)query中沒有重要性高和中的實(shí)體時(shí),query改寫不參照實(shí)體識(shí)別的結(jié)果;
當(dāng)query只有重要性高或者只有重要性高和低的實(shí)體時(shí),改寫后只會(huì)得到一個(gè)query。
示例:
假設(shè)實(shí)體重要性設(shè)置為:
高:品類
中:品牌材質(zhì)款式元素風(fēng)格顏色
1.包含重要性高和中的實(shí)體:
query=default:'楊冪同款耐克修身連衣裙包郵'
實(shí)體識(shí)別的結(jié)果:楊冪(人名)同款(后綴)耐克(品牌)修身(款式元素)連衣裙(品類)包郵(營銷服務(wù))
改寫后的Query:
Query1:(default:'耐克' AND default:'修身' AND default:'連衣裙' RANK default:'楊冪' RANK default:'包郵' RANK default:'同款')
Query2:(default:'連衣裙' RANK default:'楊冪' RANK default:'耐克' RANK default:'包郵' RANK default:'同款' RANK default:'修身')
2.包含重要性高和低的實(shí)體:
query=default:'連衣裙包郵'
實(shí)體識(shí)別的結(jié)果:連衣裙(品類)包郵(營銷服務(wù))
改寫后的Query:
Query1:(default:'連衣裙' RANK default:'包郵')
3.僅包含重要性高的實(shí)體:
query=default:'連衣裙'
實(shí)體識(shí)別的結(jié)果:連衣裙(品類)
改寫后的Query:
Query1:(default:'連衣裙')
4.包含重要性中和低的實(shí)體:
query=default:'耐克修身包郵'
實(shí)體識(shí)別的結(jié)果:耐克(品牌)修身(款式元素)包郵(營銷服務(wù))
改寫后的Query:
Query1:(default:'耐克' AND default:'修身' RANK default:'包郵')
Query2:(default:'耐克' RANK default:'修身' RANK default:'包郵')
5.僅包含重要性低的實(shí)體:
query=default:'楊冪同款包郵'
實(shí)體識(shí)別的結(jié)果:楊冪(人名)同款(后綴)包郵(營銷服務(wù))
無根據(jù)實(shí)體識(shí)別改寫的query
與類目預(yù)測(cè)一起使用
Query中不同的實(shí)體對(duì)類目的影響是不一樣的,因此,當(dāng)原query沒有類目預(yù)測(cè)的結(jié)果時(shí),會(huì)根據(jù)一定的規(guī)則,去掉query中和類目意圖無關(guān)或者相關(guān)度低的詞后,進(jìn)行類目預(yù)測(cè)。這對(duì)長尾query的類目預(yù)測(cè)會(huì)有很大的幫助。保留的實(shí)體詞包括:
品類
人群
時(shí)間季節(jié)
款式種類
風(fēng)格
示例:
對(duì)于query 楊冪(人名)同款(后綴)春季(時(shí)間季節(jié))修身(款式元素)連衣裙(品類)
,丟詞后的query按照優(yōu)先級(jí)排序分別為:
春季修身連衣裙
春季連衣裙
修身連衣裙
連衣裙
系統(tǒng)會(huì)按照上述順序依次查詢類目預(yù)測(cè)的結(jié)果。
功能使用流程
1.開放搜索控制臺(tái)選擇左側(cè)導(dǎo)航欄中的“召回配置”下方對(duì)應(yīng)的“查詢分析配置”,選擇對(duì)應(yīng)的應(yīng)用名和應(yīng)用類型(線上/線下)點(diǎn)擊創(chuàng)建:
2.輸入“規(guī)則名稱”,選擇“索引范圍”,選擇“行業(yè)類型”為電商分詞,功能選擇選中“實(shí)體識(shí)別”,點(diǎn)擊“確定”:
注:在實(shí)體類型主要性設(shè)置中增刪實(shí)體類型,默認(rèn)使用系統(tǒng)內(nèi)置詞典,如果系統(tǒng)識(shí)別的實(shí)體存在badcase, 可以使用干預(yù)詞典進(jìn)行人為干預(yù)。
3.規(guī)則創(chuàng)建完畢后,可以進(jìn)行搜索效果測(cè)試:
測(cè)試效果:查看查詢分析過程:
4.調(diào)試無誤后,在查詢分析界面,切換到“索引視角”,將對(duì)應(yīng)的自定義查詢分析設(shè)置為默認(rèn)查詢分析:
5.設(shè)置默認(rèn)自定義查詢分析后的界面效果:
實(shí)體識(shí)別干預(yù)詞典
業(yè)務(wù)場(chǎng)景不同,某些詞的實(shí)體識(shí)別語義也是不同的,為了方便用戶使用,OpenSearch提供實(shí)體識(shí)別干預(yù)詞典,供用戶自定義詞的語義,目前實(shí)體識(shí)別的干預(yù)主要包括兩個(gè):一是對(duì)實(shí)體識(shí)別結(jié)果本身的干預(yù),二是實(shí)體類型重要性的干預(yù)。當(dāng)實(shí)體識(shí)別的結(jié)果不準(zhǔn)時(shí),應(yīng)該通過實(shí)體識(shí)別的干預(yù)詞典的配置來進(jìn)行干預(yù)。通過創(chuàng)建實(shí)體識(shí)別干預(yù)詞典,并在查詢分析中實(shí)體識(shí)別配置相應(yīng)的干預(yù)詞典,就可以干預(yù)實(shí)體識(shí)別功能。具體實(shí)體識(shí)別干預(yù)詞典配置及原理,請(qǐng)點(diǎn)擊此處。