語音類
iTAG提供了音頻分類、音頻分割、音頻識別的語音類標(biāo)注模板,創(chuàng)建標(biāo)注任務(wù)時,您需要根據(jù)應(yīng)用場景選擇標(biāo)注模板。本文為您介紹語音類模板的應(yīng)用場景及數(shù)據(jù)結(jié)構(gòu)。
背景信息
音頻分類
音頻分類(Audio Classification)是指從一組固定的分類標(biāo)簽集合中,找到與輸入音頻內(nèi)容相匹配的一個或多個分類標(biāo)簽,并將其分配給該輸入音頻。該模板支持單標(biāo)簽和多標(biāo)簽音頻分類。
應(yīng)用場景
場景聲音分類等。
數(shù)據(jù)結(jié)構(gòu)
輸入數(shù)據(jù)
manifest文件的每行數(shù)據(jù)是一道題目,且每行數(shù)據(jù)必須包含source字段。
{"data":{"source":"oss://tongxin-lly.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}} ...
輸出數(shù)據(jù)
manifest文件的每行數(shù)據(jù)由題目和標(biāo)注結(jié)果一起生成。每行數(shù)據(jù)的JSON結(jié)構(gòu)如下。
{ "data": { "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/tongxin_audio/6.wav" }, "label-1432993193909231616": { "results": [ { "questionId": "1", "data": "標(biāo)簽1", "markTitle": "單選", "type": "survey/value" } ] } }
音頻分割
音頻分割(Audio segmentation)是指將一段音頻通過識別后,利用波形圖將音頻分割成多段,并匹配上不同的標(biāo)簽內(nèi)容。
應(yīng)用場景
對話內(nèi)容分析等。
數(shù)據(jù)結(jié)構(gòu)
輸入數(shù)據(jù)
manifest文件的每行數(shù)據(jù)是一道題目,且每行數(shù)據(jù)必須包含source字段。
{"data":{"source":"oss://tongxin-lly.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}} ...
輸出數(shù)據(jù)
manifest文件的每行數(shù)據(jù)由題目和標(biāo)注結(jié)果一起生成。每行數(shù)據(jù)的JSON結(jié)構(gòu)如下。
{ "data": { "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/tongxin_audio/21.wav" }, "label-1435480301706092544": { "results": [ { "duration": 0, "objects": [ { "result": { "音頻識別結(jié)果": "通過音頻識別得到的結(jié)果內(nèi)容1。", "單選": "標(biāo)簽1" }, "color": null, "id": "wavesurfer_ei0aet9uvp8", "start": 2.3886218302094817, "end": 4.635545755237045 }, { "result": { "音頻識別結(jié)果": "通過音頻識別得到的結(jié)果內(nèi)容2。", "單選": "標(biāo)簽2" }, "color": null, "id": "wavesurfer_kl39gnlb2k", "start": 5.698280044101433, "end": 7.348048511576626 } ], "empty": false } ] } }
音頻識別
音頻識別ASR是指將一段音頻識別為文本內(nèi)容,同時可以進(jìn)行相應(yīng)標(biāo)簽的匹配。
應(yīng)用場景
方言識別等。
數(shù)據(jù)結(jié)構(gòu)
輸入數(shù)據(jù)
manifest文件的每行數(shù)據(jù)是一道題目,且每行數(shù)據(jù)必須包含source字段。
{"data":{"source":"oss://tongxin-lly.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}} ...
輸出數(shù)據(jù)
manifest文件的每行數(shù)據(jù)由題目和標(biāo)注結(jié)果一起生成。每行數(shù)據(jù)的JSON結(jié)構(gòu)如下。
{ "data": { "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/tongxin_audio/14.wav" }, "label-1435448359497441280": { "results": [ { "questionId": "1", "data": "通過音頻識別得到的結(jié)果內(nèi)容。", "markTitle": "音頻識別結(jié)果", "type": "survey/value" }, { "questionId": "3", "data": [ "標(biāo)簽1", "標(biāo)簽2" ], "markTitle": "多選", "type": "survey/multivalue" } ] } }