功能簡介
自定義表格模板是針對固定版式的單頁有框線表格表單數據提供的一款定制化產品。用戶僅需通過一張模板數據的可視化拖拉拽配置參照字段、識別字段或表頭&待識別的列表區域,字段屬性等,無需進行數據標注和模型訓練,即可實現相同版式數據的自定義結構化識別抽取。經過配置調優的模板識別準確率可達85%以上。
同時工具箱中還提供分類器管理工具與字段類型管理工具,支持用戶通過同一接口完成不同版式數據的自動分類路由與高精度識別。
功能優勢
低成本,僅需提供一張樣圖即可完成模板搭建,無需標注。
低門檻,通過拖拉拽可視化配置即可完成模板定義,無需二次開發。
高效率,3-5分鐘即可完成一個模板的配置
應用場景
少樣本冷啟動:適用于業務數據樣本少(少于20張)、需要快速上線驗證的場景。
數據版式固定:版式固定的列表型有框線表格和KV型有框線表格,樣式&元素&表頭保持不變,但可以有單元格高度的調整或行數增加,例如醫療票據、體檢報告識別等保險理賠、銀行轉賬、年報審計、業務數據結構化等場景。
表格模板同時支持Key-Value型/列表型表格表單數據與表格線外字段識別。
表格內識別字段粒度最小為單元格,不支持小于單元格內的區域粒度識別。
暫不支持跨頁的表格或字段識別 。
Key-Value型表格,可以有單元格高度的調整,不支持單元格的增加、拆分、刪除。
列表型表格,表頭區域需保持不變,識別區域可以有行數的變化,暫不支持合并單元格。
相關鏈接
操作指南
「自定義表格模板操作演示」參考:
創建自定義表格模板的流程如下圖所示,僅需四步操作即可完成創建。
步驟一 : 上傳模板圖片
創建完成自定義表格模板項目,進入項目詳情進行模板創建。點擊上傳模板圖片界面上傳文件按鈕,上傳字跡清晰且無旋轉的模板圖片,并根據數據特征配置相應的參數。
模板圖片如何選擇?
字跡清晰、擺放端正、無反光、字段全且有完整表格框線的掃描圖片效果更佳。
文檔,支持不超過20M且后綴為PDF 的單頁文件。
圖片,支持不超過10M且后綴為JPG、JPEG、PNG的文件。
模板參數是什么,如何配置?
設置樣本的特征信息,便于對樣本數據進行預處理和AI模型匹配,優化處理效果配置。
支持語言、文字類型、圖像處理、紅章處理配置項。
模板參數配置不實時生效和展示,模板測試環節可以正常生效。
什么樣的數據識別效果較好?
單張圖片最長邊不超過8192像素,最短邊不小于15像素。當長邊超過1024像素時,長寬比不超過 50 :1。
建議單字大小保持在10-50像素內,以獲得較好的識別效果。
模板圖與真實業務數據的拍照角度、方位有較大差別時,可影響識別效果。
步驟二 : 框選參照字段
進入框選參照字段界面,左側工具欄選擇框選按鈕,框選模板圖片中內容和位置都固定不變的文字或表格內的單元格,例如表頭。
參照字段:參照字段為相同版式表格數據中固定出現的字段,且相對位置保持不變。建議框選的參照字段分布在頁面的四周,表格內以單元格為框選粒度。如聯合分類器使用,也會對其產生影響。
如何框選參照字段?
框選6個以上參照字段,Key-Value型參照字段盡量分散在四角。
表格內參照字段以單元格為粒度
保證框選的參照字段中文字內容及單元格位置不變。
僅支持中英文、數字、不可包含符號、圖案。
實在沒有6個以上可框選的參照字段,怎么辦?
直接跳過框選參照字段步驟,底層算法模型將自行分析,但聯合分類器使用時對于版式十分相似的模板需仔細配置。
步驟三 : 配置識別字段
進入配置識別字段界面,左側工具欄選擇框選按鈕,框選模板圖片中需要識別的字段與表格。其中列表型表格需分別定義表頭字段和識別列字段,并點擊表頭字段的輸入框填寫對應列名校對表頭值。同時,填寫字段名校對value值,并選擇對應的字段類型和高級配置以提高識別準確率。
識別字段:識別字段是圖片中需要被識別的單元格,即業務中所期望使用的信息,用于輸出結構化結果。每個識別字段包含字段名、Value值、字段類型等必選項,每個表格包括表頭字段、識別列字段、列名、表頭值、字段類型等必選項,以及高級配置作為可選項。
字段名:識別字段對外透出的名稱,即API接口中對應的名稱,且字段名需全局唯一。
Value值:識別字段的內容,框選后可自動識別并填充。如有對特定字段的后處理需求(如日期的歸一化、金額的純數字提取、符號的正則替換等),可以通過字段類型和高級配置實現,在調用時生效。
列名:列表型表格的某一列對外透出的名稱,即API接口中對應的名稱,點擊表頭字段進行設置,且列名需全局唯一。
表頭值:識別字段的內容,框選后可自動識別并填充。如有對特定字段的后處理需求(如日期的歸一化、金額的純數字提取、符號的正則替換等),可以通過字段類型和高級配置實現,在調用時生效。
如何框選識別字段?
逐個框選所需抽取字段的文字所在位置。
表格外識別字段框盡量覆蓋該字段文字可能出現的最大范圍,可以避免字段識別不完整。
表格字段以單元格作為最小顆粒度,且盡可能貼合表格單元框區域。
如何提升識別字段準確率?
選擇合適的字段類型以提升字段識別效果,支持選擇通用字段或用戶自行添加自定義字段。無需后處理選擇常規字段類型即可。
如需內容替換或設置多行連接符的情況可配置高級配置。
高級配置中正則表達式支持用戶通過字符串定義替換前和替換后的文字,示例如下:
備注
輸入
原內容
替換內容
結果
替換字符串
abcdef
abc
hello
hellodef
去掉多余空格
ab de f
\s+
ab de f
倒數第二位數字前加小數點
12345
(\d+)(\d{2})$
\1.\2
123.45
去除冒號前內容
Mobile:12345678
.+:(\d+)
\1
12345678
日期格式轉換
2023-2-3
^(\d+)-(\d+)$
\1年\2月\3日
2023年2月3日
步驟四 : 模板測試與發布
參照字段和識別字段全部框選完成后,即可進入模板測試與發布環節,點擊上傳文件上傳相同版式圖片測試模板效果,若效果滿意即可發布模板并開始API調用。
模板調優建議
測試結果出現圖片無法匹配模板的情況怎么辦?
確認上傳的測試圖片與模板圖片是否為同一版式。
調整參照字段框選范圍或更換參照字段,以提升模板匹配準確率。
測試結果中出現識別結果不完整的情況怎么辦?
可調整識別字段框選范圍,框盡量覆蓋該字段文字可能出現的最大范圍,以完善此類情況。
檢查識別測試圖片中表格框線是否完整。
檢查字段類型的選擇,例如數字識別成字母,則可調整此識別字段的字段類型。
檢查字段的高級配置。
測試結果中出現識別字段錯誤怎么辦?
檢查字段類型的選擇,例如將常規調整為數字類型,可更加精準的識別字段。
檢查識別字段框線是否貼合表格單元格區域。
檢查字段的高級配置。
測試結果選框偏移怎么辦?
檢查參照字段或識別字段框選是否符合要求。
檢查模板圖片是否符合要求。
模板管理
模板發布完成后,您可點擊項目詳情進入項目概覽,查看模板基本信息、模板信息以及調用數據,已發布的模板支持API調用和在線使用。
注意:
您需要開通自定義表格模板服務才可對已發布模板發起調用,調用數據可在詳情看板查看。API調用和在線使用均計費,具體產品計費可查看計費概述文檔。
模板發布后,可通過在線使用或API調用進行服務使用。