日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

模型優化

對于模型的優化,我們提供如下幾個建議:

  1. 如果您的數據集不大(例如僅幾百條),建議調整遍歷次數(例如調整到10或者20次),使模型得到更充分的訓練。

  2. 換一個不同模型試試。不同的模型架構在不同的任務上表現可能不同,如果您發現LSTM+CRF 效果不好,不妨換成StructBERT 試試看。

  3. 對于同一個模型調整模型的不同參數。即使是同一個模型,也會因為參數設置的不同而最終得到的效果不同。模型含有各種各樣的超參數,為了減輕用戶的負擔,我們只開放了遍歷次數和學習率兩個參數。在創建模型時可以進入高級設置進行設置。遍歷次數一般不建議修改(除非您想快速訓練完成),學習率參數有時對于模型的影響非常大,學習率的調整需要更專業的知識,建議在原有學習率基礎上可以嘗試在10倍以內的縮放調整。

  4. 如果模型效果不好,同時需要抽取的實體具有相對固定的上下文或者模型,您可以通過使用規則引擎中的規則和詞典進行輔助抽取。

  5. 有時候上述對于模型的調整可能對于性能的提升都不是很大,這時可以考慮從數據層面來優化。實體抽取的項目目前比較適合抽取較短的字段,如人名、地名、組織、時間、數值等。典型應用場景有:- 發票抬頭、日期、金額、稅號識別- 簡歷中姓名、電話、郵箱、學校、工作信息- 合同或標書中項目名稱、人員、地址、發票號碼及金額等- 醫療行業病癥、癥狀、藥物及治療方法名稱- 司法行業案件當事人信息、裁判信息、案件基本信息等- 電商行業商品品牌、供貨商、價格等- 金融行業債權人、債務人、利潤總額、資產負載率等

  6. 如果您需要抽取的字段過長,是幾句話甚至是一段話,那么使用實體抽取模型是不太合適的,可以看看平臺上有沒有其它的行業解決方案適合您的需求。

  7. 分析bad case,有針對性地補充數據。比如,您發現模型對于某一種類別經常分不對,很有可能是該類別數據量太少的原因,這時可以考慮補充該類別的標注數據。