基本概念
本文為您介紹智能語(yǔ)音交互服務(wù)中的相關(guān)概念,以便于更好地理解本產(chǎn)品。
采樣率(sample rate)
音頻采樣率是指錄音設(shè)備在一秒鐘內(nèi)對(duì)聲音信號(hào)的采樣次數(shù),采樣頻率越高聲音的還原就越真實(shí)越自然。
目前語(yǔ)音識(shí)別服務(wù)支持16000Hz和8000Hz兩種采樣率,其中電話業(yè)務(wù)一般使用8000Hz,其余業(yè)務(wù)使用16000Hz。
調(diào)用語(yǔ)音識(shí)別服務(wù)時(shí),如果語(yǔ)音數(shù)據(jù)采樣率高于16000Hz,需要先把采樣率轉(zhuǎn)換為16000Hz才能發(fā)送給語(yǔ)音識(shí)別服務(wù);如果語(yǔ)音數(shù)據(jù)采樣率是8000Hz,請(qǐng)勿將采樣率轉(zhuǎn)換為16000Hz,項(xiàng)目中選用支持8000Hz采樣率的模型。
采樣位數(shù)(sample size)
采樣值或取樣值,即是將采樣樣本幅度量化。用來(lái)衡量聲音波動(dòng)變化的參數(shù)或聲卡的分辨率。數(shù)值越大、分辨率越高,發(fā)出聲音的能力越強(qiáng)。
目前語(yǔ)音識(shí)別中常用的采樣位數(shù)為16 bit小端序,即每次采樣的音頻信息用2字節(jié)保存,或者說(shuō)2字節(jié)記錄1/16000s的音頻數(shù)據(jù)。其中,2字節(jié)采樣位數(shù)已經(jīng)能夠達(dá)到CD標(biāo)準(zhǔn)。
每個(gè)采樣數(shù)據(jù)記錄的是振幅,采樣精度取決于采樣位數(shù)的大?。?/p>
1字節(jié)(8 bit)記錄256個(gè)數(shù),亦即將振幅劃分為256個(gè)等級(jí)。
2字節(jié)(16 bit)記錄65536個(gè)數(shù)。
語(yǔ)音編碼(format)
語(yǔ)音數(shù)據(jù)存儲(chǔ)和傳輸?shù)姆绞?。語(yǔ)音數(shù)據(jù)編碼格式和語(yǔ)音文件格式不同,如常見的WAV文件格式,會(huì)在其頭部定義語(yǔ)音數(shù)據(jù)的編碼,其中的音頻數(shù)據(jù)通常使用PCM、AMR或其他編碼。
在調(diào)用智能語(yǔ)音交互服務(wù)之前需確認(rèn)語(yǔ)音數(shù)據(jù)編碼格式是服務(wù)所支持的。
聲道(sound channel)
錄制聲音時(shí),在不同空間位置采集的相互獨(dú)立的音頻信號(hào),所以聲道數(shù)也是指聲音錄制時(shí)的音源數(shù)量。常見的音頻數(shù)據(jù)為單聲道或雙聲道(立體聲)。
除錄音文件識(shí)別以外的服務(wù)只支持單聲道(mono)音頻數(shù)據(jù),如果您的數(shù)據(jù)是雙聲道或其他,需要先轉(zhuǎn)換為單聲道。
逆文本規(guī)整(inverse text normalization)
語(yǔ)音轉(zhuǎn)換為文本時(shí)使用標(biāo)準(zhǔn)化的格式展示數(shù)字、金額、日期和地址等對(duì)象,以符合閱讀習(xí)慣。以下是一些示例。
語(yǔ)音原始文本 | 開啟ITN的識(shí)別結(jié)果 |
百分之二十 | 20% |
一千六百八十元 | 1680元 |
五月十一號(hào) | 5月11號(hào) |
請(qǐng)撥幺幺零 | 請(qǐng)撥110 |
項(xiàng)目標(biāo)識(shí)(Appkey)
在智能語(yǔ)音交互管理控制臺(tái)中創(chuàng)建的每個(gè)項(xiàng)目都有一個(gè)唯一標(biāo)識(shí),即Appkey。當(dāng)您調(diào)用智能語(yǔ)音服務(wù)時(shí)必須提供Appkey,服務(wù)通過(guò)Appkey獲得項(xiàng)目的具體配置信息。
當(dāng)存在多個(gè)業(yè)務(wù)需要智能語(yǔ)音服務(wù),如電話客服場(chǎng)景和手機(jī)輸入法場(chǎng)景,各場(chǎng)景需要的語(yǔ)音能力是不同的,只有當(dāng)項(xiàng)目配置與業(yè)務(wù)場(chǎng)景匹配才能獲得最佳效果。
訪問(wèn)標(biāo)識(shí)(AccessKey)
程序訪問(wèn)阿里云API的憑證,登錄AccessKey管理頁(yè)面,創(chuàng)建并查看訪問(wèn)標(biāo)識(shí)。
訪問(wèn)標(biāo)識(shí)由ID和Secret兩部分構(gòu)成:AccessKey ID是類似身份的標(biāo)識(shí);AccessKey Secret的作用是簽名您的訪問(wèn)參數(shù),防止數(shù)據(jù)被篡改。兩者必須組合使用,其中AccessKey Secret類似登錄密碼,請(qǐng)不要向任何人泄露。
訪問(wèn)令牌(Access Token)
訪問(wèn)智能語(yǔ)音交互服務(wù)的憑證,提供有效期控制,您可以通過(guò)AccessKey ID和AccessKey Secret獲取訪問(wèn)令牌。關(guān)于如何獲取Token,請(qǐng)參見獲取Token概述。
對(duì)于手機(jī)等設(shè)備端調(diào)用智能語(yǔ)音服務(wù)的場(chǎng)景,可以在服務(wù)端獲取令牌,發(fā)送給設(shè)備端使用,能夠有效避免Access key泄露。
中間結(jié)果(intermediate result)
在調(diào)用語(yǔ)音識(shí)別服務(wù)時(shí)可以設(shè)置是否返回中間結(jié)果:
設(shè)置為false時(shí),只在語(yǔ)音全部識(shí)別完后返回一次完整的結(jié)果。
設(shè)置為true時(shí),除了最后一次完整的結(jié)果之外,還會(huì)在您說(shuō)話的同時(shí)返回中間結(jié)果。
如一段語(yǔ)音,識(shí)別最終結(jié)果是“你好阿里巴巴”。在啟用中間結(jié)果后,會(huì)在您說(shuō)話的同時(shí)返回5次結(jié)果,如下所示。
你
你好
你好啊
你好阿里
你好阿里巴巴
中間結(jié)果可能在后續(xù)返回結(jié)果中被修正。
中間結(jié)果增量返回的字?jǐn)?shù)不固定,并不是每次都比上一次多識(shí)別一個(gè)字。
task_id
每一個(gè)語(yǔ)音服務(wù)請(qǐng)求都會(huì)有一個(gè)唯一的task_id,由SDK自動(dòng)生成,用于定位問(wèn)題。