本文為您介紹通義聽悟的相關概念,以便于更好地理解本產品。
音頻采樣率(sample rate)
音頻采樣率是指錄音設備在一秒鐘內對聲音信號的采樣次數,采樣頻率越高聲音的還原就越真實越自然。
目前語音識別服務支持16000Hz和8000Hz兩種采樣率,其中電話業務一般使用8000Hz,其余業務使用16000Hz。
調用語音識別服務時,如果語音數據采樣率高于16000Hz,需要先把采樣率轉換為16000Hz才能發送給語音識別服務;如果語音數據采樣率是8000Hz,請勿將采樣率轉換為16000Hz,項目中選用支持8000Hz采樣率的模型。
采樣位數(sample size)
采樣值或取樣值,即是將采樣樣本幅度量化。用來衡量聲音波動變化的參數,或是聲卡的分辨率。數值越大、分辨率越高,發出聲音的能力越強。
目前語音識別中常用的采樣位數為16 bit小端序。即每次采樣的音頻信息用2字節保存,或者說2字節記錄1/16000s的音頻數據。
每個采樣數據記錄的是振幅,采樣精度取決于采樣位數的大小:
1字節(8比特)記錄256個數,亦即將振幅劃分為256個等級。
2字節(16比特)記錄65536個數。
其中2字節采樣位數已經能夠達到CD標準。
語音編碼(format)
語音數據存儲和傳輸的方式。注意語音編碼和語音文件格式不同,如常見的WAV文件格式,會在其頭部定義語音數據的編碼,其中的音頻數據通常使用PCM、AMR或其他編碼。
在調用通義聽悟服務之前需確認語音數據編碼格式是服務所支持的。
項目標識(Appkey)
在通義聽悟控制臺中創建的每個項目都有一個唯一標識,即Appkey。當您調用智能語音服務時必須提供Appkey,服務通過Appkey獲得項目的具體配置信息。
當存在多個業務需要智能語音服務,如電話客服場景和手機輸入法場景,各場景需要的語音能力是不同的,只有當項目配置與業務場景匹配才能獲得最佳效果。
訪問標識(AccessKey)
程序訪問阿里云API的憑證,登錄AccessKey管理頁面,創建并查看訪問標識。
訪問標識由ID和Secret兩部分構成:AccessKey ID是類似身份的標識,AccessKey Secret的作用是簽名您的訪問參數,防止數據被篡改。兩者必須組合使用。其中AccessKey Secret類似登錄密碼,不要向任何人泄漏。
中間結果(intermediate result)
在調用語音識別服務時可以設置是否返回中間結果:
設置為false時,只在語音全部識別完后返回一次完整的結果。
設置為true時,除了最后一次完整的結果之外,還會在您說話的同時返回中間結果。
如一段語音,識別最終結果是“你好阿里巴巴”。在啟用中間結果后,會在您說話的同時返回5次結果,如下所示。
你
你好
你好啊
你好阿里
你好阿里巴巴
中間結果可能在后續返回結果中被修正。
中間結果增量返回的字數不固定,并不是每次都比上一次多識別一個字。
action_id
每一個語音服務請求都會有一個唯一的action_id,由接口自動生成,用于定位問題。
多路音頻流
在線會議場景下所特有的一路混音數據流+多路發言人數據流。
Protobuf?
是Google公司開發的一種數據描述語言。用于通義聽悟識別在線多人會議時對多通道語音流數據封裝結構的描述。
章節速覽
能夠將音視頻中的內容按主題進行分段,總結每段標題,并提取段落信息摘要。方便快速理解內容結構與上下文關系。
摘要總結
使用通義千問大模型能力,進行的全文摘要、發言總結(需開通發言人分離)、問答回顧、思維導圖。均在轉寫完成后,可調用對應能力。支持中英雙語。
要點提煉
包含關鍵詞、待辦事項、場景識別和重點內容提取四個AI能力。在轉寫完成后進行處理。
PPT抽取及摘要
將視頻中演示的PPT進行抽取,并對每頁PPT講解的內容進行摘要總結,解決了無法索要PPT的問題,同時對應了PPT與講解語音。該功能整合了語音、語言、圖像三種模態的AI能力。