數(shù)據(jù)準(zhǔn)備
由于模型需要通過標(biāo)注數(shù)據(jù)來從中學(xué)習(xí)規(guī)律,因此我們首先要準(zhǔn)備好一個標(biāo)注數(shù)據(jù)集。以發(fā)票數(shù)據(jù)的抽取為例,我們試圖從一段發(fā)票的文本中抽取出發(fā)票的供應(yīng)商、發(fā)票號碼、金額等實體字段,我們需要準(zhǔn)備好一定數(shù)目的標(biāo)注數(shù)據(jù)供模型學(xué)習(xí)。標(biāo)注數(shù)據(jù)指的是將需要抽取的實體從原始的文本中標(biāo)識出來,如:從“阿里巴巴達摩院項目合同發(fā)票號:188188,轉(zhuǎn)讓金額:1000 元人民幣。”中提取出金額,我們需要對“100 元人民幣”進行標(biāo)注。我們通常鼓勵每一個實體的有效標(biāo)注數(shù)據(jù)不小于500 份。
對于用戶已經(jīng)積累了一部分標(biāo)注數(shù)據(jù)的情況,我們需要您按照自學(xué)習(xí)平臺所支持的輸入格式進行組織,并且上傳。如果您目前還沒有標(biāo)注數(shù)據(jù),也可以選擇上傳原始文件,通過標(biāo)注平臺進行標(biāo)注,標(biāo)注平臺的使用見下一節(jié)。自行上傳的標(biāo)注數(shù)據(jù)為JSON格式,且需要符合以下格式,其中文本的內(nèi)容放在“content”中,而標(biāo)簽的內(nèi)容放在“records”中,records 中key 為實體名,value 為標(biāo)注內(nèi)容在原文中的偏移量
{
"id_0001": { // 這是該文檔在您數(shù)據(jù)集里的唯一標(biāo)示
"content": "阿里巴巴集團達摩院的工作地主要有:北京、杭州等",
"records": {
"公司名": [{
"span": "阿里巴巴集團",
"offset": [ //標(biāo)注字段真實字節(jié)的偏移量,首字節(jié)的偏移量為0。
0,
6
]
}],
"地點": [{
"span": "北京",
"offset": [
17,
19
]
}, {
"span": "杭州",
"offset": [
20,
22
]
}]
}
}
}
上傳文件的入口在剛剛創(chuàng)建好的項目中,數(shù)據(jù)中心->上傳數(shù)據(jù)集。