文檔理解是對各類文檔和表格進行結構化識別與理解,返回層級樹和版面分析等相關信息。本文介紹文檔理解的功能特性、功能優勢和應用場景。
功能特性
文檔解析(大模型版)
對各類版式的文檔(電子版和掃描版)進行解析,從文檔中提取出層級樹和版面信息,支持輸出markdown格式。可作為大模型預訓練、RAG的文檔預處理鏈路,提供高質量、高精度的文檔解析服務,能夠幫助企業高效地進行大模型應用的場景建設。
電子文檔解析
適用于純電子文檔的解析,從電子文檔半結構化內容中解析出所包含的結構化對象,從文檔中提取出邏輯層級結構,支持輸出markdown格式。
文檔智能解析
進行通用文檔解析,從文檔中提取出邏輯層級結構、文本內容、表格內容、Key-Value鍵值字段、樣式信息等。基于對文檔的內容信息、版面信息和邏輯信息的分析理解,以結構化數據的形態輸出抽取結果。
能力比對
版本 | 支持格式 | 輸出 | 特點 | ||
文檔解析(大模型版) | 支持市面上絕大部分格式的文檔:
|
| 功能較全推薦使用 | 效果較好 | 速度較快 |
電子文檔解析 | 純電子解析,支持格式:
|
| 功能中等 | 效果中等 | 速度最快 |
文檔智能解析 | 支持格式:
|
| 功能較全 | 效果較好 | 速度最慢 |
表格智能解析
進行通用表格解析,從表格中提取出表格樣式、表格內容、文本KV、表格KV等。基于對表格的內容信息、版面信息和邏輯信息的分析理解,以結構化數據的形態輸出抽取結果。
文檔抽取
進行文檔關鍵信息抽取,對各種類型的文檔和表格中的關鍵信息進行智能化抽取,返回Key-Value內容。既包括文本段落中的KV字段,也包括表格中的KV字段。
功能優勢
算法技術先進
依托阿里豐富的文檔場景打磨的多模態文檔識別與理解引擎,算法效果與性能指標處于先進水平。
行業應用豐富
覆蓋海關物流、司法、招投標、政務、金融財稅等多行業多場景應用,可滿足各行各業的文檔處理需求。
部署方式靈活
支持公共云API、混合云Docker、aPaaS、SaaS等多種產品接入方式,產品形態靈活,使用門檻低。
服務質量可靠
提供高可用的文檔處理能力,已在海量文檔處理業務中反復錘煉,服務穩定性高,支持彈性擴縮容。
應用場景
大模型訓練
支持對pdf、word、markdown等多種文檔格式的處理,返回文檔的層級結構,并結合文檔語義信息,處理成文檔切片后用于大模型訓練,方便下游結合大模型開發智能問答等應用。
檢索增強生成RAG
可以精準識別并解析包括企業日常辦公中常見的Office文檔(word/excel/ppt )、pdf、圖片等在內的主流文件類型,返回文檔的樣式、版面信息和層級樹結構,從而為RAG輸入高精準度、高連貫語義的切塊(Chunk),保障了整個RAG方案的基礎效果。
辦公文檔處理
對各類辦公文檔和表單進行智能化處理,實現文檔的結構化信息提取,提升辦公場景下的生產力。