国产亚洲成年网址在线观看,国产精品原创永久在线观看,日韩国产亚洲欧美中国v

功能簡介

表格信息抽取是基于深度學(xué)習(xí)的信息抽取自學(xué)習(xí)模型任務(wù)，可對版式相對固定的表格、表單的等類型數(shù)據(jù)有較好的效果，支持用戶自定義抽取字段，通過平臺可視化引導(dǎo)，完成數(shù)據(jù)標(biāo)注和模型訓(xùn)練。
在圖像質(zhì)量較好情況下，通過100+訓(xùn)練樣本標(biāo)注，調(diào)優(yōu)后模型識別準(zhǔn)確率可超95%+。

同時工具箱中還提供分類器管理工具與字段類型管理工具，支持用戶通過同一接口完成不同類型數(shù)據(jù)的自動分類路由與高精度識別。

功能優(yōu)勢

高精度，基于阿里云強(qiáng)大的預(yù)訓(xùn)練模型，經(jīng)過調(diào)優(yōu)訓(xùn)練的多版式模型識別準(zhǔn)確率可達(dá)95%以上。
少樣本，僅需標(biāo)注少量數(shù)據(jù)即可完成模型優(yōu)化迭代，且模型具有泛化性。
低門檻，無需代碼開發(fā)，開箱即用，可自主配置規(guī)則，交互友好可控。
高效率，提供智能預(yù)標(biāo)注能力，多人協(xié)同標(biāo)注耗時短。

應(yīng)用場景

支持列表（List）型表格和鍵值對（KV）型表格，適用于版式少量變化或可枚舉的有線表格，半框表格，無框表格，需要結(jié)構(gòu)化信息抽取的圖片或單頁P(yáng)DF文件。
模型有持續(xù)優(yōu)化的需求，且有較多的數(shù)據(jù)樣本可用于模型訓(xùn)練進(jìn)行效果優(yōu)化的表格表單數(shù)據(jù)，例如財稅報銷，資質(zhì)審核，業(yè)務(wù)內(nèi)部單據(jù)結(jié)構(gòu)化識別等場景。

操作指南

「表格信息抽取接入視頻」參考：

創(chuàng)建「表格信息抽取」流程如下圖，開始模型訓(xùn)練需要至少 20 個訓(xùn)練數(shù)據(jù)。

步驟一：數(shù)據(jù)準(zhǔn)備

進(jìn)入「表格信息抽取」項目「數(shù)據(jù)中心-數(shù)據(jù)集」，用戶可進(jìn)行上傳和管理模型任務(wù)所需數(shù)據(jù)。點擊添加數(shù)據(jù)集進(jìn)入上傳界面，編輯數(shù)據(jù)集名稱并上傳相關(guān)表格業(yè)務(wù)數(shù)據(jù)。

說明

表格信息抽取自定義模型至少需要20張訓(xùn)練數(shù)據(jù)，才能獲得相對較好的識別抽取效果。

提示建議：

數(shù)據(jù)準(zhǔn)備有什么具體要求？
1. 數(shù)據(jù)集可上傳圖片、文檔、壓縮包；
  1. 文檔，支持不超過20M且后綴為pdf的文件，僅支持單頁pdf；
  2. 圖片，支持不超過10M且后綴為jpg、jpeg、png的文件；
  3. 壓縮包，僅支持zip格式，且單zip包不超過20M。
2. 單張圖片最長邊不超過8192像素，最短邊不小于15像素。當(dāng)長邊超過1024像素時，長寬比不超過50 ：1。
3. 至少準(zhǔn)備20-30份以上同類任務(wù)的數(shù)據(jù)用于模型訓(xùn)練與評測。
如何獲得更好識別效果？
1. 在產(chǎn)品功能范圍的任務(wù)，數(shù)據(jù)質(zhì)量越高，識別與抽取效果越好，字跡清晰端正的數(shù)據(jù)能有更高的準(zhǔn)確率。
2. 單字大小保持在10-50像素內(nèi)，以獲得較好的識別效果。
3. 數(shù)據(jù)來源于真實業(yè)務(wù)場景，且類型與版式完整覆蓋。

步驟二：數(shù)據(jù)標(biāo)注

數(shù)據(jù)標(biāo)注劃分為標(biāo)注創(chuàng)建環(huán)節(jié)、標(biāo)注環(huán)節(jié)、質(zhì)檢環(huán)節(jié)三大步驟；

標(biāo)注任務(wù)創(chuàng)建

在「數(shù)據(jù)中心-標(biāo)注任務(wù)」界面中，點擊創(chuàng)建標(biāo)注任務(wù)進(jìn)入創(chuàng)建界面，編輯任務(wù)名稱以及在上傳數(shù)據(jù)中選擇需要標(biāo)注的數(shù)據(jù)集或直接本地上傳，完成后進(jìn)入題目設(shè)置。

預(yù)標(biāo)注：開啟OCR預(yù)標(biāo)注識別后，在標(biāo)注時畫框之后會自動識別出框內(nèi)文字內(nèi)容，提高標(biāo)注效率。

題目庫：本任務(wù)中，已存在的題目，用戶可通過查看題目庫選擇合適的題目用于標(biāo)注任務(wù)的制定。

字段名稱：識別字段對外透出的名稱，即API接口中對應(yīng)的名稱，且字段名需全局唯一。

字段類型：字段屬性定義，選擇合適的字段類型可提升字段識別端到端效果，支持選擇通用字段或用戶自行添加自定義字段。無需后處理選擇常規(guī)字段類型即可。

提示建議：

標(biāo)注任務(wù)如何上傳數(shù)據(jù)？
1. 支持本地上傳和從數(shù)據(jù)集中選擇；若您預(yù)先將數(shù)據(jù)上傳至數(shù)據(jù)集，則可選擇從數(shù)據(jù)集中選擇，點擊列表上方「添加數(shù)據(jù)集」，選擇需要標(biāo)注的數(shù)據(jù)集即可；
如何填寫表格信息抽取？
1. 「表格信息抽取」，支持「添加字段」和「添加表格」兩種類型的題目。
2. 「添加字段」即支持 KV 結(jié)構(gòu)型字段，需要將需要標(biāo)注的字段名稱全部填入內(nèi)容框中，并選擇相應(yīng)的字段類型；
3. 「添加表格」即支持列表型表格，點擊添加表格并輸入相應(yīng)的表頭信息；

標(biāo)注

進(jìn)入「數(shù)據(jù)中心-標(biāo)注任務(wù)」界面，選擇創(chuàng)建完成的標(biāo)注任務(wù)點擊去標(biāo)注，即進(jìn)入數(shù)據(jù)標(biāo)注界面，點擊工具欄框選完成框選題目或創(chuàng)建表格。待所有圖片及其所有待識別字段都依次完成標(biāo)注后，點擊提交任務(wù)完成該部分標(biāo)注。

重要

標(biāo)注數(shù)據(jù)的質(zhì)量（文字及位置）將直接影響模型訓(xùn)練的效果與評測指標(biāo)。

如遇見錯誤數(shù)據(jù)或不可標(biāo)注數(shù)據(jù)，可選擇跳過該張圖片。

提示建議：

框選工具如何使用？
1. 對于文字較為平整的區(qū)域您可選擇「四角框」進(jìn)行框選，對于文字傾斜的區(qū)域您可選擇「五角框」進(jìn)行框選，選框盡可能貼合識別字段，可提高識別效果。
2. 「OCR預(yù)標(biāo)注」支持印刷體文字識別，暫不支持手寫體識別。
如何創(chuàng)建表格？
1. 創(chuàng)建表格適合LIST型表格表頭值和識別列框選。
2. 若意向創(chuàng)建表格則相應(yīng)在題目設(shè)置部分應(yīng)選擇添加表格。
3. 創(chuàng)建表格操作細(xì)節(jié)：進(jìn)入添加表格標(biāo)簽頁后，需要點擊創(chuàng)建表格選擇對應(yīng)的表格模板，其表頭值會顯示于右側(cè)面板中；您需要點擊表格識別列選框并在左側(cè)圖片中做識別字段框選，需要依次將每個表頭值對應(yīng)的每個識別字段框選完整。如上圖所示。
如何框選題目？
1. 框選題目適合KV型表格其KV字段框選。
2. 若意向框選題目則相應(yīng)在題目設(shè)置部分應(yīng)選擇添加字段。
3. 對于文字較為平整的區(qū)域您可選擇「四角框」進(jìn)行框選，對于文字傾斜的區(qū)域您可選擇「六角框」進(jìn)行框選，選框盡可能貼合待識別字段，可提高識別效果。
4. 「OCR預(yù)標(biāo)注」支持印刷體文字識別，暫不支持手寫體識別。預(yù)標(biāo)注自動識別的文字內(nèi)容需仔細(xì)核對檢查，保證標(biāo)注正確性。

質(zhì)檢環(huán)節(jié)：進(jìn)入「數(shù)據(jù)中心-標(biāo)注任務(wù)」界面，選擇已標(biāo)注完成的任務(wù)點擊「質(zhì)檢」，進(jìn)入數(shù)據(jù)質(zhì)檢界面。您需要和核驗該任務(wù)所有圖片以及其字段是否標(biāo)注完善，若標(biāo)注有誤則需做更改或者「駁回」操作，若標(biāo)注無誤則點擊「提交」完成質(zhì)檢工作。

提示建議：

如何進(jìn)行質(zhì)檢？
1. 質(zhì)檢人員可直接使用標(biāo)注工具對標(biāo)注信息進(jìn)行增刪改操作。
2. 質(zhì)檢人員選擇「提交」則所有圖片都完成質(zhì)檢工作。
質(zhì)檢過程中發(fā)現(xiàn)標(biāo)注質(zhì)量不高該怎么辦？
1. 選擇對應(yīng)的題目進(jìn)行直接修改編輯。
2. 選擇駁回則退回標(biāo)注人員重新標(biāo)注處理。

步驟三：模型訓(xùn)練與測評

進(jìn)入「模型中心」，點擊創(chuàng)建模型進(jìn)入模型創(chuàng)建界面，進(jìn)行訓(xùn)練集標(biāo)注結(jié)果和測試集標(biāo)注結(jié)果選擇，同時完成基本信息填寫。創(chuàng)建模型后成功后自動進(jìn)入模型訓(xùn)練。

「訓(xùn)練集」：用于訓(xùn)練模型的數(shù)據(jù)源，只能選擇標(biāo)注且質(zhì)檢完成的數(shù)據(jù)集作為訓(xùn)練集，且已被選為測試集的數(shù)據(jù)集不可再次選擇。建議選擇20張以上有效數(shù)據(jù)進(jìn)行模型訓(xùn)練。

「測試集」：用于測試模型的數(shù)據(jù)源，只能選擇標(biāo)注且質(zhì)檢完成的數(shù)據(jù)集作為測試集，且已被選為訓(xùn)練集的數(shù)據(jù)集不可再次選擇。

「自動劃分1/10訓(xùn)練集作為測試集」：若打開此按鈕，則無需手動再次選擇測試集，系統(tǒng)直接自動劃分1/10訓(xùn)練集作為測試集。如打開自動劃分功能前已存在完成上傳測試集，打開開關(guān)后，系統(tǒng)將忽略此前手動上傳的測試集數(shù)據(jù)。

模型訓(xùn)練費用及預(yù)估時長。根據(jù)任務(wù)類型及數(shù)量變動，以界面顯示數(shù)字為準(zhǔn)。詳情可見OCR文檔自學(xué)習(xí)計費。

「訓(xùn)練時長」：由數(shù)據(jù)量、標(biāo)注情況、機(jī)器資源等多種因素共同決定。例如采用V100機(jī)器，20張圖片數(shù)據(jù)量約需1小時訓(xùn)練時長，200張圖片數(shù)據(jù)量約需2小時訓(xùn)練時長。

提示建議：

您需要校驗「測試集」和「訓(xùn)練集」字段，各數(shù)據(jù)集字段內(nèi)容需要保持一致。
「模型訓(xùn)練」配置環(huán)節(jié)支持選擇字段對應(yīng)的字段類型，或根據(jù)業(yè)務(wù)需求刪除字段，以提高訓(xùn)練精準(zhǔn)度。
建議數(shù)據(jù)量越大，標(biāo)注越精確，模型訓(xùn)練和評測的效果越好。
配置合適的字段類型，提升端到端準(zhǔn)確率。

算法評估評價指標(biāo)評：包括整體指標(biāo)、字段指標(biāo)、表格指標(biāo)三個維度。

整體指標(biāo)

準(zhǔn)確率：算法模型平均準(zhǔn)確率（Accuracy），未經(jīng)規(guī)則后處理修正。即測試集中被正確預(yù)測的標(biāo)注框占所有標(biāo)注框（內(nèi)容+位置）的比例。
精確率：算法模型平均精確率（Precision），未經(jīng)規(guī)則后處理修正，為被識別為正類別的樣本中，真實為正類別的比例，即測試集中被識別出來的字段有多少是與標(biāo)注框一致（內(nèi)容+位置）的比例。
召回率：算法模型平均召回率（Recall），未經(jīng)規(guī)則后處理修正，為所有真實為正類別的樣本中，被正確識別為正類別的比例，即測試集中被正確識別的標(biāo)注框（內(nèi)容+位置）的比例。

字段指標(biāo)

精確率：算法模型單字段精確率（Precision），未經(jīng)規(guī)則后處理修正，為被識別為正類別的樣本中，真實為正類別的概率，即測試集中被識別為該字段占該類字段真實標(biāo)注框（內(nèi)容+位置）的比例。
召回率：算法模型單字段召回率（Recall），未經(jīng)規(guī)則后處理修正，為所有真實為正類別的樣本中，被正確識別為正類別的概率，即測試集中被正確識別的該類標(biāo)注框（內(nèi)容+位置）的比例。
F1值：綜合評價指標(biāo)（F1-Measure），為精確率和召回率的加權(quán)調(diào)和平均，常用于評價分類模型的好壞。

表格指標(biāo)

精確率：算法模型當(dāng)前類型字段精確率（Precision），未經(jīng)規(guī)則后處理修正，為被識別為正類別的樣本中，真實為正類別的概率，即當(dāng)類表格測試集中正確預(yù)測為該類字段占該類字段標(biāo)注框（內(nèi)容+位置）的比例。
召回率：算法模型當(dāng)前類型字段召回率（Recall），未經(jīng)規(guī)則后處理修正，為所有真實為正類別的樣本中，被正確識別為正類別的概率，即當(dāng)類表格測試集中被正確識別的該類標(biāo)注框（內(nèi)容+位置）的比例。
F1值：綜合評價指標(biāo)（F1-Measure），為精確率和召回率的加權(quán)調(diào)和平均，常用于評價分類模型的好壞。

調(diào)優(yōu)建議：

如何進(jìn)行模型調(diào)優(yōu)？

明確任務(wù)類型符合功能范圍，以及數(shù)據(jù)質(zhì)量盡可能清晰端正。
數(shù)據(jù)標(biāo)注需要將識別字段逐一標(biāo)注完整，標(biāo)注框盡量貼合字段文字。也可以調(diào)整字段類型或高級選項提高準(zhǔn)確率。
數(shù)據(jù)量越大，模型訓(xùn)練效果越好。一般模型數(shù)據(jù)量達(dá)100+份，會有一個較好的表現(xiàn)。
數(shù)據(jù)類型和版式分布符合真實業(yè)務(wù)場景，只有訓(xùn)練過的數(shù)據(jù)類型和版式才能有較好的識別效果。

步驟四：模型部署

模型訓(xùn)練完成后，進(jìn)入「模型中心-模型詳情」，點擊頁面底部「去部署」按鈕，即可開始模型部署。模型部署需要一定時間，部署成功后即可通過在線體驗可視化測試模型效果或直接使用API進(jìn)行在線服務(wù)調(diào)用。

說明

發(fā)布并部署模型服務(wù)后，可參考文檔API概覽使用服務(wù)，也可進(jìn)入「在線使用」界面測試模型效果。

重要

OCR文檔自學(xué)習(xí)自2023年8月23日開啟全面商業(yè)化，模型訓(xùn)練按時長計費，模型推理調(diào)用按調(diào)用量計費，詳情可見OCR文檔自學(xué)習(xí)計費。

小工具-題目庫

題目庫：應(yīng)用于「題目設(shè)置」環(huán)節(jié)，預(yù)先創(chuàng)建標(biāo)注任務(wù)字段，此題目支持多次引用；即多標(biāo)注任務(wù)若所需標(biāo)注字段相同，可通過題目庫選擇，減少多次編輯題目人力成本并降低題目編輯錯誤可能性。

說明

若重新修改題目庫，不會對已經(jīng)發(fā)起的標(biāo)注任務(wù)或模型產(chǎn)生影響。

日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

表格信息抽取

功能簡介

功能優(yōu)勢

應(yīng)用場景

相關(guān)鏈接

操作指南

步驟一：數(shù)據(jù)準(zhǔn)備

步驟二：數(shù)據(jù)標(biāo)注

標(biāo)注任務(wù)創(chuàng)建

標(biāo)注

步驟三：模型訓(xùn)練與測評

步驟四：模型部署

小工具-題目庫

日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

功能簡介

功能優(yōu)勢

應(yīng)用場景

相關(guān)鏈接

操作指南

步驟一： 數(shù)據(jù)準(zhǔn)備

步驟二： 數(shù)據(jù)標(biāo)注

標(biāo)注任務(wù)創(chuàng)建

標(biāo)注

步驟三：模型訓(xùn)練與測評

步驟四： 模型部署

小工具-題目庫

步驟一：數(shù)據(jù)準(zhǔn)備

步驟二：數(shù)據(jù)標(biāo)注

步驟四：模型部署