支持多格式版面、復雜文檔背景和光照環境的精準識別。
接口說明
本接口適用場景
- 阿里云全文識別高精版,是阿里云官方自研 OCR 文字識別產品,智能識別圖片所包含的全部字段,集表格識別、旋轉識別、生僻字識別等多功能為一體,提供高性價比的多場景文字識別體驗。
- 阿里云 OCR 產品基于阿里巴巴達摩院強大的 AI 技術及海量數據,歷經多年沉淀打磨,具有服務穩定、操作簡易、實時性高、能力全面等幾大優勢。
- 本接口圖片示例
本接口核心能力
分類 | 概述 |
---|---|
多功能集結 | 集表格識別、旋轉識別、生僻字識別等多功能為一體。 |
抗干擾 | 支持多格式版面、復雜文檔背景和光照環境的精準識別。 |
自動排異 | 對有印章、手印的文檔,可實現印章查處后識別。 |
高階能力 | 支持覆蓋文字編輯、低置信度過濾、圖案檢測。 |
如何使用本接口
步驟 | 概述 |
---|---|
1 | 開通 通用文字識別 服務。開通服務前后,您可以通過體驗館免費體驗本功能識別效果。 |
2 | 購買全文識別高精版資源包。本 API 會贈送免費額度,可使用免費額度測試。 |
3 | 可以參照調試頁面提供的代碼示例完成 API 接入開發。接入完成后,調用 API 獲取識別結果。如果使用子賬號調用接口,需要阿里云賬號(主賬號)對 RAM 賬號進行授權。創建 RAM 用戶的具體操作,請參考:創建 RAM 用戶。文字識別服務提供一種系統授權策略,即 AliyunOCRFullAccess。具體授權操作,請參見在用戶頁面為 RAM 用戶授權。 |
重要提示
類型 | 概述 |
---|---|
圖片格式 |
|
圖片尺寸 |
|
圖片大小 |
|
其他提示 |
|
調試
您可以在OpenAPI Explorer中直接運行該接口,免去您計算簽名的困擾。運行成功后,OpenAPI Explorer可以自動生成SDK代碼示例。
授權信息
下表是API對應的授權信息,可以在RAM權限策略語句的Action
元素中使用,用來給RAM用戶或RAM角色授予調用此API的權限。具體說明如下:
- 操作:是指具體的權限點。
- 訪問級別:是指每個操作的訪問級別,取值為寫入(Write)、讀取(Read)或列出(List)。
- 資源類型:是指操作中支持授權的資源類型。具體說明如下:
- 對于必選的資源類型,用背景高亮的方式表示。
- 對于不支持資源級授權的操作,用
全部資源
表示。
- 條件關鍵字:是指云產品自身定義的條件關鍵字。
- 關聯操作:是指成功執行操作所需要的其他權限。操作者必須同時具備關聯操作的權限,操作才能成功。
操作 | 訪問級別 | 資源類型 | 條件關鍵字 | 關聯操作 |
---|---|---|---|---|
ocr:RecognizeAdvanced | update | *全部資源 * |
| 無 |
請求參數
名稱 | 類型 | 必填 | 描述 | 示例值 |
---|---|---|---|---|
Url | string | 否 |
| https://example.png |
body | byte | 否 |
| 圖片二進制文件 |
OutputCharInfo | boolean | 否 |
| false |
NeedRotate | boolean | 否 |
| false |
OutputTable | boolean | 否 |
| false |
NeedSortPage | boolean | 否 |
| false |
OutputFigure | boolean | 否 |
| false |
NoStamp | boolean | 否 |
| false |
Paragraph | boolean | 否 |
| false |
Row | boolean | 否 |
| false |
返回參數
返回參數說明
字段 | 類型 | 說明 |
---|---|---|
angle | int | 圖片的角度(當 NeedRotate=true 時,返回此字段)。0 表示正向,90 表示圖片朝右,180 朝下,270 朝左。 |
content | string | 識別出圖片的文字塊匯總。 |
figure | list | 圖片中的圖案信息(當 OutputFigure=true 時,返回此字段)。 |
prism_wordsInfo | list | 文字塊信息。 |
prism_tablesInfo | list | 表格信息(當 OutputTable=true 時,返回此字段)。 |
prism_paragraphsInfo | list | 段落信息(當 Paragraph=true 時,返回此字段)。 |
prism_rowsInfo | list | 行信息(當 Row=true 時,返回此字段)。 |
prism_wnum | int | 識別的文字塊的數量,prism_wordsInfo 數組的大小。 |
height | int | 算法矯正圖片后的高度。 |
width | int | 算法矯正圖片后的寬度。 |
orgHeight | int | 原圖的高度。 |
orgWidth | int | 原圖的寬度。 |
文字塊信息(prism_wordsInfo 字段)
字段 | 類型 | 說明 |
---|---|---|
angle | int | 文字塊的角度。 |
height | int | 文字塊的高度(需考慮文字塊的角度) |
width | int | 文字塊的寬度(需考慮文字塊的角度) |
pos | list | 文字塊的外矩形四個點的坐標按順時針排列(左上、右上、右下、左下)。當 NeedRotate=true 時,如果最外層的 angle 不為 0,需要按照 angle 矯正圖片后,坐標才準確。 |
word | string | 文字塊的文字內容。 |
tableId | int | 表格的 id(當 OutputTable=true 時,返回此字段)。 |
tableCellId | int | 表格中單元格的 id(當 OutputTable=true 時,返回此字段)。 |
charInfo | list | 單字信息。 |
單字信息(charInfo 字段)
字段 | 類型 | 說明 |
---|---|---|
word | string | 單字文字。 |
prob | int | 置信度。 |
x | int | 單字左上角橫坐標。 |
y | int | 單字左上角縱坐標。 |
w | int | 單字寬度。 |
h | int | 單字高度。 |
表格信息(prism_tablesInfo 字段。當 OutputTable=true 時,返回此字段。)
字段 | 類型 | 說明 |
---|---|---|
tableId | int | 表格 id,和 prism_wordsInfo 信息中的 tableId 對應。 |
xCellSize | int | 表格中橫坐標單元格的數量。 |
yCellSize | int | 表格中縱坐標單元格的數量。 |
cellInfos | list | 單元格信息。 |
單元格信息(cellInfos 字段)
字段 | 類型 | 說明 |
---|---|---|
tableCellId | int | 表格中單元格 id,和 prism_wordsInfo 信息中的 tableCellId 對應。 |
word | string | 單元格中的文字。 |
xsc | int | xStartCell 縮寫,表示橫軸方向該單元格起始在第幾個單元格,第一個單元格值為 0。 |
xec | int | xEndCell 縮寫,表示橫軸方向該單元格結束在第幾個單元格,第一個單元格值為 0,如果 xsc 和 xec 都為 0 說明該文字在橫軸方向占據了一個單元格并且在第一個單元格內。 |
ysc | int | yStartCell 縮寫,表示縱軸方向該單元格起始在第幾個單元格,第一個單元格值為 0。 |
yec | int | yEndCell 縮寫,表示縱軸方向該單元格結束在第幾個單元格,第一個單元格值為 0。 |
pos | list | 單元格位置,按照單元格四個角的坐標順時針排列,分別為左上 XY 坐標、右上 XY 坐標、右下 XY 坐標、左下 XY 坐標。 |
段落信息(prism_paragraphsInfo 字段。當 Paragraph=true 時,返回此字段。)
字段 | 類型 | 說明 |
---|---|---|
paragraphId | int | 段落 id,和 prism_wordsInfo 信息中的 paragraphId 對應。 |
word | string | 段落文字。 |
行信息(prism_rowsInfo 字段。當 Row=true 時,返回此字段。)
字段 | 類型 | 說明 |
---|---|---|
rowId | int | 行 id,和 prism_wordsInfo 信息中的 rowId 對應。 |
word | string | 行文字。 |
圖案位置信息(figure 字段。當 OutputFigure=true 時,返回此字段。)
字段 | 類型 | 說明 |
---|---|---|
type | string | 圖案類型。blicense_title 營業執照標題,national_emblem 中國國徽,barcode 條形碼,qrcode 二維碼,face 人臉,finger_print 指紋,signature 簽名,round_stamp 圓形印章,oval_stamp 橢圓印章,rectangular_stamp 矩形印章,square_stamp 方形印章,rhombus_stamp 菱形印章 |
x | int | 圖案左上角橫坐標。 |
y | int | 圖案左上角縱坐標。 |
w | int | 圖案寬度。 |
h | int | 圖案高度。 |
box | object | 圖案坐標信息:中心橫縱坐標,長寬,順時針旋轉角度。定義同 OpenCV 中 RotatedRect,請參見 OpenCV 文檔。 |
points | list | 圖案四個點坐標(左上、右上、右下、左下)。 |
示例
正常返回示例
JSON
格式
{
"RequestId": "43A29C77-405E-4CC0-BC55-EE694AD00655",
"Data": "{ \t\"content\": \"2017年河北區實驗小學\", \t\"height\": 3509, \t\"orgHeight\": 3509, \t\"orgWidth\": 2512, \t\"prism_version\": \"1.0.9\", \t\"prism_wnum\": 126, \t\"prism_wordsInfo\": [{ \t\t\"angle\": -89, \t\t\"direction\": 0, \t\t\"height\": 541, \t\t\"pos\": [{ \t\t\t\"x\": 982, \t\t\t\"y\": 223 \t\t}, { \t\t\t\"x\": 1522, \t\t\t\"y\": 223 \t\t}, { \t\t\t\"x\": 1522, \t\t\t\"y\": 266 \t\t}, { \t\t\t\"x\": 982, \t\t\t\"y\": 266 \t\t}], \t\t\"prob\": 99, \t\t\"width\": 43, \t\t\"word\": \"2017年河北區實驗小學\", \t\t\"x\": 1230, \t\t\"y\": -26 \t}], \t\"width\": 2512 }",
"Code": "200",
"Message": "message"
}
錯誤碼
訪問錯誤中心查看更多錯誤碼。
變更歷史
變更時間 | 變更內容概要 | 操作 |
---|---|---|
2022-11-15 | API 內部配置變更,不影響調用 | 查看變更詳情 |
2021-08-17 | OpenAPI 入參發生變更 | 查看變更詳情 |
SDK 調用 通過 SDK 調用此接口的示例請參考開發者中心