工具箱是OCR文檔自學習所提供的用于模型、模板路由分類及提升識別準確率的小工具集合,當前主要提供了分類器與字段類型兩大類工具。
分類器管理
分類器:是一個支持多模板、多模型分類路由的工具。用戶通過設定分類器中的關鍵詞或訓練樣本建立分類標準,完成對于已發布的自定義模板、信息抽取模型的自動匹配。用戶可在分類器發布后,僅通過分類器接口實現多種類型業務數據的結構化識別及信息提取,省去單一模板或模型接口調用前數據人工分類成本。同時用戶可手動通過重復發布,調整分類器所包含的類別。
重要
分類器中僅可選擇已完成發布模板或已上線部署完成的模型
分類器需包含至少2個分類
分類器暫不支持長文檔模型
關鍵詞:每一分類數據中存在的獨有的文字內容,用于模板或模型與輸入圖片的匹配。關鍵詞需選擇僅在當前模板/模型中出現,即可根據關鍵詞唯一確定圖片所屬類別。例如,創建身份證與戶口本的分類器,戶口本識別的關鍵詞可選擇“文化程度”、“服務處所”、“證件編號”等,身份證識別的關鍵詞僅可選擇“公民身份號碼”。
訓練集:針對模板類型任務,可通過上傳相同版式的圖片壓縮包,提升分類準確率。尤其是針對數據版式較為復雜的模板,建議上傳不少于20張以上不重復的同版式圖片。
體驗:針對已完成訓練的分類器,可進行分類效果體驗。
字段類型管理
字段類型:在自學習平臺字段識別、抽取過程中增加一些通用、或業務/行業知識的字典用于字段糾錯與格式歸一化,從而提升字段識別準確率及規范字段輸出。
通用字段:即系統預先設置的具備通用屬性特征的字段類型。
自定義字段:即用戶可根據業務特征自定義創建獨有的字段類型,主要通過字典枚舉進行新增,例如,全國省市行政規劃、候選人名單列表、星期等。
文檔內容是否對您有幫助?