功能簡介
OCR文檔自學習,是面向“無算法基礎”的企業與個人開發者用戶,通過全流程可視化操作,支持用戶完成模板配置、數據處理&標注、模型構建&訓練、部署發布等操作的一站式工具平臺。本平臺采用少樣本訓練、智能預標注,視覺-語義聯合學習等前沿AI技術,支持客戶低成本實現個性化場景的文檔數字化和信息化業務。
提供用戶可控的定制化工具,幫助用戶實現其業務場景下的模型定制,實現業務數據驅動AI服務。
多模態信息抽取,幫助客戶實現多模態自定義信息抽取,可達到服務可用、好用的效果。
支持少樣本冷啟動,最少可支持用戶通過一張圖進行服務定制。
定制化效率提升,支持用戶端到端小時級AI模型定制,大大縮短業務等待時間。
交互友好型,通過可視化人機交互,降低模型訓練的進入與使用門檻。
功能詳情
OCR文檔自學習平臺現支持模板和模型兩大類項目的自主訓練。用戶可以通過配置模板或少量標注數據,訓練出更滿足業務場景需求的AI智能模型。
模板:
模型:
工具箱:
「自定義模板」和「信息抽取模型」功能都能夠做抽取的任務,那么我們如何確定什么情況下選擇什么能力呢?
自定義模板:僅通過一張樣本圖配置,無需進行模型訓練,適用于數據版式固定,對字段抽取準確率要求不高的業務冷啟動快速驗證階段。
信息抽取模型:標準的“標注數據-模型訓練”流程,通過可視化的模型標訓完成業務專屬的模型定制,適用于數據版式相對固定或可枚舉,樣本數量較為充足,對信息抽取準確率要求較高的業務穩定階段。
價值主張
數據資產化:
支持數據資產的閉環管理(上傳、處理、標注等),提供一站式預處理與標注工具,通過平臺可視化引導,服務無算法基礎的用戶,5分鐘內完成自定義模板任務從創建到發布全流程,從而持續沉淀數據資產,助力業務的轉型升級。
模型業務化:
通過預置的通用多模態AI能力,通過沉淀的數據資產,支持用戶一鍵訓練更滿足業務場景需求的自主定制化模型,通過預訓練模型、圖文多模態算法和少樣本信息抽取等核心技術能力,更高效、高精度地滿足業務場景的需求。
管理平臺化:
通過一站式的工具平臺,提供從數據資產管理、模型構建、訓練、部署的全流程管理工具,支持用戶對模型評測與業務效果持續跟蹤,未來通過持續業務正、負樣本回流,實現業務運營管理的終生學習與持續迭代升級。提升業務場景的閉環與價值的持續提升。
產品優勢
多模態文檔信息抽取
圍繞“視覺文檔信息抽取”中心,致力于解決復雜視覺文檔的個性化信息抽取痛點,構建服務穩定、效果精準、鏈路智能的自學習信息抽取平臺。
零代碼自主定制
通過少樣本等技術手段,降低模型訓練門檻,讓無算法基礎的用戶結合自己場景數據,自主完成模型定制,將數據資產轉化成服務資產。
高精度模型效果
內置超大規模多模態預訓練模型、多場景高精度文字識別模型,和統一的信息抽取模型,滿足不同場景零代碼建模的精度需求。
高效模型生產效率
內置智能化預標注和方便易用的一站式標注套件極大提升標注效率,內置基礎預訓練模型大幅提升模型在微調階段的訓練效率。
靈活的部署形態
支持高可用公共云形態與本地私有化部署,滿足不同客戶的落地需求。
應用場景
票據單證抽取
支持對各類單據、票證的KV信息抽取,識別率可達95%,適用于版式相對固定且可枚舉的場景。
表格表單解析
可實現對各類表格表單的信息抽取,識別率可達95%,適用于版式相對固定且可枚舉的場景。
非結構化長文檔解析
支持對各類非結構化文檔進行自動化信息抽取,識別率可達85%,適用于處理非結構化的多頁文檔。
公告公文處理
支持公告公文等類型的文檔信息抽取,通過文檔自學習平臺實現版式樣式不固定下的文檔處理。
聯系我們
如需更多溝通可通過釘釘群聯系我們
【官方】阿里云OCR文檔自學習用戶答疑群:26560014923
【官方】阿里云OCR公共云客戶交流群:35208328
【官方】阿里云文檔智能客戶交流群:44854217