數據相關
名稱 | 解釋 |
MaxCompute數據源 | 全量數據源,原始數據按照分區存儲在MaxCompute中。 |
API數據源 | 實時增量數據源,通過API推送進行數據更新。 |
文檔 | 文檔是可搜索的結構化數據單元。文檔包含一個或多個字段,但必須有主鍵字段,召回引擎版實例通過主鍵值來確定唯一的文檔。 主鍵重復則文檔會被覆蓋。 |
字段 | 字段是文檔的組成單元,包含字段名稱和字段內容。 |
多值字段 | 一個字段含有多個不同的值,每個值都是獨立的。 |
主鍵 | 唯一標識一篇文檔的字段。 |
召回引擎版
名稱 | 解釋 |
查詢節點(QRS) | 在線檢索中的一個角色,用于解析查詢請求合并Searcher的結果。 |
數據節點(Searcher) | 在線檢索系統中的一個角色,加載索引數據,提供檢索服務。 |
集群 | 一組查詢節點和數據節點的組成的一個檢索服務。 |
Processor | 離線索引構建中的一個角色,解析用戶的原始數據。 |
Builder | 離線索引構建中的一個角色,將原始數據構建成索引。 |
Merger | 離線索引構建中的一個角色,對索引進行合并整理。 |
全量 | 將MaxCompute上的數據構建成索引的過程就叫做全量,產出的索引成為全量索引,索引的版本稱為全量版本。 |
增量 | 數據實時更新時,離線索引構建流程產出索引并切換到線上。 |
實時 | API推送的數據實時生效,這一流程成為實時,在數據節點內存中會產出實時索引。 |
倒排索引 | 詞組到文檔的對應關系組成的鏈表,query子句用的就是這種排序方式,查詢效率高。例如:term1->doc1,doc2,doc3;term2->doc1,doc2。 |
正排索引 | 文檔到字段對應關系組成的鏈表,filter子句用的就是這種排序方式,性能略慢于倒排。例如:doc1->id,type,create_time…。 |
摘要索引 | 將需要展示的信息存儲在一起,通過主鍵或者docid進行獲取,最終返回給搜索結果頁進行展示。 |
分詞 | 對推送上來的文檔進行詞組切分,TEXT類型為按檢索單元進行切分。如“浙江大學”,TEXT類型會切分成2個詞組:“浙江”、“大學”。 |
term | 分詞后的詞組稱為term。 |
FSM觸發和執行機制
變更類型 | 允許重復觸發 | 說明 |
服務發現 | 是 | 可以理解為把引擎的IP掛載到域名下以供調用。針對同一個集群的情況下,最新的變更執行前會終止所有舊的變更 |
ha3_biz_apend | 否 | 添加biz,由系統自動觸發有且僅有一個,該變更可能持續運行好幾天,直到實例正確添加索引表并成功構建索引后才會自動結束。 |
update_biz_depend_index_fsm | 否 | 更新biz依賴的索引,由系統自動觸發有且僅有一個,該變更可能持續運行好幾天,直到索引表成功構建索引才會自動結束。 |
新增在線部署 | 是 | 針對同一個集群的情況下,最新的變更執行前會終止所有舊的變更 |
multi_biz_activate | 否 | 可以理解為實例初始化, 一個實例有且僅有一個,該變更可能持續運行好幾天,直到實例正確添加索引表并成功構建索引后才會自動結束。 |
新增索引 | 是 | 針對同一個索引的情況下,最新的變更執行前會終止所有舊的變更 |
自動觸發全量 | 是 | 發現新的數據分區后自動執行,最新的變更和歷史變更并存 |
手動觸發全量 | 是 | 最新的變更和歷史變更并存 |
推送配置 | 是 | 最新的變更執行前會終止所有舊的變更 |
在線資源 | 是 | 針對同一個zone的情況下,最新的變更執行前會終止所有舊的變更 |
索引回滾 | 是 | 最新的變更和歷史變更并存 |
FSM:有限狀態機(Finite State Machine:FSM)又稱有限狀態自動機或簡稱狀態機,是表示有限個狀態以及在這些狀態之間的轉移和動作等行為的數學模型。
重復觸發:是否允許多次觸發該變更類型