數(shù)據(jù)準(zhǔn)備
更新時(shí)間:
由于模型需要通過標(biāo)注數(shù)據(jù)來從中學(xué)習(xí)規(guī)律,我們首先要準(zhǔn)備好一個(gè)標(biāo)注數(shù)據(jù)集。以商品評(píng)價(jià)解析-分類任務(wù)為例,我們的每一條數(shù)據(jù)為一個(gè)(文本,屬性維度-情感傾向)對(duì)。情感傾向一共有四種不同的類別:“正”,“中”,“負(fù)”,“未提及”(可省略)。對(duì)于每一個(gè)不同的類別,我們建議至少準(zhǔn)備 100 條訓(xùn)練數(shù)據(jù)再進(jìn)行測(cè)試。訓(xùn)練數(shù)據(jù)需要按照NLP自學(xué)習(xí)平臺(tái)定義好的格式進(jìn)行處理,以JSON為例,您需要將每一條數(shù)據(jù)處理成如下格式:
{
"1": {
"content": "挺好的 買來太多了。 我自己拿刀改了。還是一樣好看",
"records": {
"整體": [
"正"
],
"外觀設(shè)計(jì)": [
"正"
]
}
}
}
文本的內(nèi)容放在“content”中,而標(biāo)簽的內(nèi)容放在“records”中,其中content只支持string類型,records字段是一個(gè)對(duì)象類型。records字段的key代表了屬性維度,只支持string類型;value代表具體的情感傾向標(biāo)簽,只支持string類型(如“正”、“中”、“負(fù)”、“未提及”),其中“未提及”可以省略。
文檔內(nèi)容是否對(duì)您有幫助?