日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

數(shù)據(jù)準(zhǔn)備

由于模型需要通過標(biāo)注數(shù)據(jù)來從中學(xué)習(xí)規(guī)律,因此我們首先要準(zhǔn)備好一個標(biāo)注數(shù)據(jù)集。以發(fā)票數(shù)據(jù)的抽取為例,我們試圖從一段發(fā)票的文本中抽取出發(fā)票的供應(yīng)商、發(fā)票號碼、金額等實體字段,我們需要準(zhǔn)備好一定數(shù)目的標(biāo)注數(shù)據(jù)供模型學(xué)習(xí)。標(biāo)注數(shù)據(jù)指的是將需要抽取的實體從原始的文本中標(biāo)識出來,如:從“阿里巴巴達摩院項目合同發(fā)票號:188188,轉(zhuǎn)讓金額:1000 元人民幣。”中提取出金額,我們需要對“100 元人民幣”進行標(biāo)注。我們通常鼓勵每一個實體的有效標(biāo)注數(shù)據(jù)不小于500 份。

對于用戶已經(jīng)積累了一部分標(biāo)注數(shù)據(jù)的情況,我們需要您按照自學(xué)習(xí)平臺所支持的輸入格式進行組織,并且上傳。如果您目前還沒有標(biāo)注數(shù)據(jù),也可以選擇上傳原始文件,通過標(biāo)注平臺進行標(biāo)注,標(biāo)注平臺的使用見下一節(jié)。自行上傳的標(biāo)注數(shù)據(jù)為JSON格式,且需要符合以下格式,其中文本的內(nèi)容放在“content”中,而標(biāo)簽的內(nèi)容放在“records”中,records 中key 為實體名,value 為標(biāo)注內(nèi)容在原文中的偏移量

{
    "id_0001": { // 這是該文檔在您數(shù)據(jù)集里的唯一標(biāo)示
        "content": "阿里巴巴集團達摩院的工作地主要有:北京、杭州等",
        "records": {
            "公司名": [{
                "span": "阿里巴巴集團",
                "offset": [ //標(biāo)注字段真實字節(jié)的偏移量,首字節(jié)的偏移量為0。
                    0,
                    6
                ]
            }],
            "地點": [{
                "span": "北京",
                "offset": [
                    17,
                    19
                ]
            }, {
                "span": "杭州",
                "offset": [
                    20,
                    22
                ]
            }]
        }
    }
}

上傳文件的入口在剛剛創(chuàng)建好的項目中,數(shù)據(jù)中心->上傳數(shù)據(jù)集。