由于模型需要通過標注數據來從中學習規律,因此我們首先要準備好一個標注數據集。標注數據指的是將需要抽取的實體從原始的文本中標識出來,如:從“項目法人委托質量檢測合同 合同編號: JSZH20200048 工程名稱:工程及綜合整治項目 委托方:園街道辦事處”中提取出合同編號,我們需要對“JSZH20200048”進行標注。我們通常鼓勵每一個實體的有效標注數據不小于500份。
對于用戶已經積累了一部分標注數據的情況,我們需要您按照自學習平臺所支持的輸入格式進行組織,并且上傳。如果您目前還沒有標注數據,也可以選擇上傳原始文件,通過標注平臺進行標注,標注平臺的使用見下一節。自行上傳的標注數據為JSON格式,且需要符合以下格式,其中文本的內容放在“content”中,而標簽的內容放在“records”中,records 中key 為實體名,value 為標注內容在原文中的偏移量
{
"id001": {
"content": "項目法人委托質量檢測合同\n合同編號: JSZH20200048 \n工程名稱:工程及綜合整治項目 \n委 托 方:園街道辦事處 ",
"records": {
"委托方": [
{
"span": "園街道辦事處",
"offset": [
55,
61
]
}
],
"合同編號": [
{
"span": "JSZH20200048",
"offset": [
19,
31
]
}
]
}
}
}
上傳文件的入口在剛剛創建好的項目中,數據中心->上傳數據集。
文檔內容是否對您有幫助?