在實體抽取中,我們提供了中英文模型進行選擇,中文也提供了兩個不同的模型。如果您不知道選哪個,可以選擇LSTM-CRF 進行嘗試,兼顧了運行效率和最終結果。以下是模型的說明,您可以根據自己的具體場景,選擇一個更適合的模型。
中文BiLSTM+CRF
同時編碼字/詞信息的BiLSTM+CRF 模型,模型結構簡單,訓練速度快,更適合樣本數據量大、標簽種類較多的場景。
中文Tiny-StructBERT
StructBERT 是阿里達摩院自研的語言模型,Tiny模型是在大規模語料下蒸餾后的StructBERT 模型,最大程度上保留了StructBERT 的性能,且提升速度。該模型模型結構相對復雜,適合小樣本數據集,可以收獲更高的準確率。
中文StructBert
基于阿里自研的Struct BERT,從大量無標注語料進行預訓練的模型并且蒸餾后的模型,適合標注語料不足的中文任務。針對實體重疊問題進行了優化。建議一般用戶選擇該類模型。
英文實體抽取模型
同時編碼char/word 信息的BiLSTM+CRF 模型,能夠快速獲取較高的準確率。
更多維度對比
模型
性能
效果
是否支持重疊實體
說明
中文BiLSTM-CRF
很快
不支持
中文Tiny-StructBERT
很快
不支持
中文StructBert
較快
較好
支持
優先推薦使用
中文StructBert-CRF
較慢
較好
支持
適用于數據量較小場景,請設置epoch>10
中文StructBert-CRF(高性能版)【推薦】
較快
較好
不支持
適用于標簽依賴較強數據
英文實體抽取
很快
不支持
文檔內容是否對您有幫助?