本文介紹阿里云文檔智能(Document Mind)的產品概述、產品優勢、產品架構以及產品類別。
產品概述
文檔智能(Document Mind),基于阿里巴巴達摩院多年技術積累打造的多模態文檔識別與理解引擎,為用戶提供通用文檔智能和文檔自學習能力,可滿足各種場景下的智能文檔處理需求,為大模型數據訓練、RAG、知識庫問答提供高精度的文檔解析能力。
產品優勢
企業數據大多數都以文本、圖片、掃描件、電子表格、在線文檔、郵件等文檔的形式存在,難以流通和處理,大量有價值的信息都被鎖定在非結構化的文檔中,無法充分發揮數據價值。
文檔智能深度融合文字識別、自然語言處理、圖像處理、電子文檔解析、文檔預訓練模型等多項技術,對非結構化和半結構化文檔進行智能自動化處理,從而簡化業務操作流程、提升文檔處理效率,幫助企業更準確地進行大模型應用的場景建設。
選擇文檔智能,您可以高效完成以下文檔處理任務:
結構化解析文檔,提取文檔中的層級樹、版面、表格和字段等元素。
進行文檔格式轉換,如PDF轉Word或Excel、圖片轉Word或Excel等。
借助自學習工具,自行定義所需抽取的文檔信息并訓練文檔處理模型。
產品架構
文檔智能平臺以非結構化文檔為輸入,依托文檔智能預訓練技術和產品,輸出處理后的結構化數據。具體產品架構圖如下所示。
產品類別
通用文檔智能產品
文檔理解
對各類文檔和表格進行結構化識別與理解,并可在此基礎上完成文檔抽取等多種通用場景下的智能文檔處理任務。詳細內容,請參見文檔理解。
文檔格式轉換
將PDF、圖片等不可編輯的文檔轉換為Word、Excel等可編輯的文檔格式,在實現高精度內容識別的同時,最大限度地保留文檔版式樣式。詳細內容,請參見文檔格式轉換。
文檔自學習產品
文檔自學習
提供數據標注和訓練能力,支持各類文檔和表格的自學習訓練。詳細內容,請參見文檔自學習。
文檔內容是否對您有幫助?