功能簡介
自定義KV模板是針對卡證、票據等固定版式的數據提供的一款定制化產品。用戶僅需通過一張模板數據的可視化拖拉拽配置,無需進行數據標注和模型訓練,即可實現相同版式數據的自定義結構化識別抽取。經過配置調優的模板識別準確率可達85%以上。
同時工具箱中還提供分類器管理工具與字段類型管理工具,支持用戶通過同一接口完成不同版式數據的自動分類路由與高精度識別。
功能優勢
低成本,僅需提供一張樣圖即可完成模板搭建,無需標注。
低門檻,通過拖拉拽可視化配置即可完成模板定義,無需二次開發。
高效率,3-5分鐘即可完成一個模板的配置。
應用場景
少樣本冷啟動:適用于業務數據樣本少(少于20張)、需要快速上線驗證的場景。
數據版式固定:業務數據類型多,但每一類型數據字段明確可標識且Key-Value位置固定,例如學生證、結婚證、銀行轉賬單等資質審核、財務報銷、業務數據結構化等場景。
相關鏈接
操作指南
「自定義KV模板操作演示」參考:
創建自定義KV模板的流程如下圖所示,僅需四步操作即可完成創建。
步驟一 : 上傳模板圖片
創建自定義KV模板項目,點擊上傳模板圖片界面上傳文件按鈕,上傳字跡清晰且無旋轉的模板圖片,并根據數據特征配置相應的參數。點擊重新上傳可進行模板圖片替換。
模板圖片如何選擇?
字跡清晰、擺放端正、無反光、字段全的掃描圖片效果更佳。
文檔,支持不超過20M且后綴為PDF 的單頁文件。
圖片,支持不超過10M且后綴為JPG、JPEG、PNG的文件。
模板參數如何配置?
模板參數設置樣本的特征信息,便于對樣本數據進行預處理和AI模型匹配,優化處理效果配置。
支持語言、文字類型、圖像處理、紅章處理配置項。
模板參數配置不實時生效和展示,模板測試環節可以正常生效。
什么樣的數據識別效果較好?
單張圖片最長邊不超過8192像素,最短邊不小于15像素。當長邊超過1024像素時,長寬比不超過50 :1 。
建議單字大小保持在10-50像素內,以獲得較好的識別效果。
模板圖與真實業務數據的拍照角度、方位有較大差別時,可影響識別效果。
步驟二 : 框選參照字段
在左側工具欄選擇框選按鈕,框選模板圖片中內容和位置都固定不變的文字區域作為參照字段。
參照字段:為圖片中文字及位置固定不變的字段區域,用于相同版式待識別圖片的自動矯正與錨定匹配。如聯合分類器使用,也會對其產生影響。
如何框選參照字段?
框選4個以上參照字段,并盡量分散在四角。
保證框選的文字內容、位置固定不變。
單個字段不可跨行。
選取圖片中不會重復的文字。
僅支持中英文、數字、不可包含符號、圖案。
實在沒有4個以上可框選的參照字段,怎么辦?
直接跳過框選參照字段步驟,底層算法模型將自行分析,但聯合分類器使用時對于版式十分相似的模板需仔細配置。
步驟三 : 配置識別字段
進入配置識別字段界面,在左側工具欄選擇框選按鈕,框選模板圖片中需要識別的字段區域;同時,填寫字段名校對value值,并選擇對應的字段類型和高級配置以提高識別準確率。
識別字段:識別字段是圖片中需要被識別的區域,即業務中所期望使用的信息,用于輸出結構化識別結果。每個識別字段包含字段名、Value值、字段類型等必選項,以及高級配置作為可選項。
字段名:識別字段對外透出的名稱,即API接口中對應的名稱,且字段名需全局唯一。
Value值:識別字段的內容,框選后可自動識別并填充。如有對特定字段的后處理需求(如日期的歸一化、金額的純數字提取、符號的正則替換等),可以通過字段類型和高級配置實現,在調用時生效。
如何框選識別字段?
逐個框選所需抽取字段的文字所在區域。
識別字段框盡量覆蓋該字段文字可能出現的最大范圍,可以避免字段識別不完整。
如何提升識別字段準確率?
選擇合適的字段類型以提升字段識別效果,支持選擇通用字段或用戶自行添加自定義字段。無需后處理選擇[常規]字段類型即可。
如需內容替換或設置多行連接符的情況可通過配置高級配置完成。
高級配置中正則表達式支持用戶通過字符串定義替換前和替換后的文字,示例如下:
備注
輸入
原內容
替換內容
結果
替換字符串
abcdef
abc
hello
hellodef
去掉多余空格
ab de f
\s+
ab de f
倒數第二位數字前加小數點
12345
(\d+)(\d{2})$
\1.\2
123.45
去除冒號前內容
Mobile:12345678
.+:(\d+)
\1
12345678
日期格式轉換
2023-2-3
^(\d+)-(\d+)-(\d+)$
\1年\2月\3日
2023年2月3日
步驟四 : 模板測試與發布
參照字段和識別字段全部框選完成后,即可進入模板測試與發布環節,點擊上傳文件上傳相同版式圖片測試模板效果,若效果滿意即可發布模板并開始API調用。可通過重新上傳按鈕,測試多份數據的效果,同時可通過返回上一步進行效果調優。
模板調優建議
測試結果出現圖片無法匹配模板的情況怎么辦?
確認上傳的測試圖片與模板圖片是否為同一版式。
調整參照字段框選范圍或更換參照字段,以提升模板匹配準確率。
測試結果中出現識別結果不完整的情況怎么辦?
可調整識別區框選范圍,框盡量覆蓋該字段文字可能出現的最大范圍,以完善此類情況。
檢查字段類型的選擇,例如數字識別成字母,則可調整此識別字段的字段類型。
檢查字段的高級配置。
測試結果中出現識別字段錯誤怎么辦?
檢查字段類型的選擇,例如將常規調整為數字類型,可更加精準的識別字段。
檢查字段的高級配置。
測試結果選框偏移怎么辦?
檢查參照字段或識別字段框選是否符合要求。
檢查模板圖片是否符合要求。
模板管理
模板發布完成后,可通過項目詳情進入項目概覽,查看模板基本信息、模板信息以及調用數據。已發布的模板支持API調用和在線使用。
注意:
需完成自定義KV模板服務開通,才可進行模板配置。
僅可已發布模板發起調用和在線使用,調用數據可在詳情看板查看。API調用和在線使用均計費,具體產品計費可查看計費文檔。