合同抽取服務針對合同中的要素進行抽取,使用示例如下。
服務開通與資源包購買
預訓練模型使用前,請確認是否已經開通了NLP自學習平臺服務,開通后可購買資源包。
NLP自學習平臺:開通地址
自學習平臺資源包:購買地址
一、創建項目
在NLP自學習平臺中【點擊進入自學習管控臺】,支持多個基本項目和應用算法。在本教程中,我們將引導您掌握通過自學習平臺創建一個“合同抽取”的項目。
進入“我的項目”或“創建項目”,選擇應用算法中的“合同抽取”算法點擊“創建”。在接下來的頁面填寫項目名稱和項目描述即可。
二、數據準備
進入“我的項目”后,可以在數據中心中管理您的數據,有兩種方式可以創建數據:
1、創建標注任務;2、上傳數據集。
2.1創建標注任務
步驟一:上傳待標注文檔,添加標注人員
創建者和項目管理員默認為標注人員,同時,您也可以將標注任務分配給您創建的阿里云子賬號,被分配用戶通過子賬號的賬號密碼登錄本平臺,即可參與數據標注。
子賬號登錄說明:
1、子賬號登錄頁,登錄:https://signin.aliyun.com/login.htm
2、登錄后,點擊進入我的項目-創建標注任務。
注意:目前僅支持UTF-8編碼方式的數據文件
步驟二:添加自定義標簽
合同抽取內置20+個無需標注的實體標簽,模型訓練的數據標注成本低至原本的20%以下。
選擇本次標注需要優化的預置字段,并逐個添加需要標注的自定義標簽字段名;
步驟三:標注數據
2.2 上傳數據集
由于模型需要通過標注數據來從中學習規律,因此我們首先要準備好一個標注數據集。
對于用戶已經積累了一部分標注數據的情況,我們需要您按照自學習平臺所支持的輸入格式進行組織,并且上傳。
自行上傳的標注數據為JSON格式,且需要符合以下格式,其中文本的內容放在“content”中,而標簽的內容放在“records”中,records 中key 為實體名,value 為標注內容在原文中的偏移量。
{
"id_0001": { // 這是該文檔在您數據集里的唯一標示
"content": "
輸送臨時工協議
甲方:深圳市aaa電子有限公司 乙方:深圳市BBB勞務派遣有限公司
地址:深圳市X大道A工業園 地址:深圳市Y區Z辦事處S東路1號B大樓1010
法定代表人:韓六
法定代表人:王五
授權代表:李四
授權代表:張三
電話:89601111
電話:1390000****
甲方因生產任務緊張,人員短缺,為保障用工需求,滿足正常生產運作,根據《中華人民共和國合同法》和《中
華人民共和國勞動合同法》及其它相關法律法規的有關規定,本著平等自愿、協商一致的原則,就乙方輸送臨時
工到甲方工作有關事宜簽訂本協議,并共同遵守本協議書所列之條款。
甲方接受并同意:
乙方接受并同意:
甲方代表簽名:
乙方代表簽名:",
"records": {
"甲方名稱": [{
"span": "深圳市aaa電子有限公司",
"offset": [ //標注字段真實字節的偏移量,首字節的偏移量為0。
11,
23
]
}],
"乙方名稱": [{
"span": "深圳市BBB勞務派遣有限公司",
"offset": [
27,
41
]
},
}]
"甲方地址": [{
"span": "深圳市X大道A工業園",
"offset": [
45,
55
]
},
}]
"乙方地址": [{
"span": "深圳市y區z辦事處s東路1號b大樓1010",
"offset": [
59,
80
]
},
}]
}
}
}
三、創建模型
在“模型中心”點擊“創建模型”;
查看模型詳情,點擊模型右側“查看”按鈕查看模型詳情。
模型詳情頁
模型測試
模型訓練完成后,可對訓練好的模型進行線上測試模型效果;
平臺模型測試
基于平臺已訓練好的模型進行文本測試,可以針對需要提升的標簽準確率進行單獨訓練;
附錄:合同抽取內置字段及說明 |
序號 | 實體名稱 | 說明 |
1 | 合同名稱 | |
2 | 合同編號 | |
3 | 合同期限 | |
4 | 合同份數 | |
5 | 合同金額 | |
6 | 合同金額小寫 | |
7 | 合同金額大寫 | |
8 | 稅率 | |
9 | 開始時間 | |
10 | 結束時間 | |
11 | 簽訂時間 | |
12 | 生效時間 | |
13 | 甲方名稱 | |
14 | 甲方簽章名稱 | |
15 | 甲方銀行賬號 | |
16 | 甲方銀行賬戶 | |
17 | 甲方開戶行名稱 | |
18 | 甲方地址 | |
19 | 乙方名稱 | |
20 | 乙方簽章名稱 | |
21 | 乙方銀行賬號 | |
22 | 乙方銀行賬戶 | |
23 | 乙方開戶行名稱 | |
24 | 乙方地址 | |
25 | 訴訟法院 | |
26 | 仲裁機構 |