什么是智能語音交互
智能語音交互(Intelligent Speech Interaction)是基于語音識(shí)別、語音合成、自然語言理解等技術(shù),為企業(yè)在多種實(shí)際應(yīng)用場(chǎng)景下,賦予產(chǎn)品“能聽、會(huì)說、懂你”式的智能人機(jī)交互功能。適用于智能問答、智能質(zhì)檢、法庭庭審實(shí)時(shí)記錄、實(shí)時(shí)演講字幕、訪談錄音轉(zhuǎn)寫等場(chǎng)景,在金融、司法、電商等多個(gè)領(lǐng)域均有應(yīng)用。
全新的智能語言交互2.0版本現(xiàn)已發(fā)布。您可以使用自學(xué)習(xí)平臺(tái)等工具改善語音識(shí)別效果,而且我們?yōu)槟峁┝斯δ芨S富的管理控制臺(tái)和更易用的SDK,歡迎開通體驗(yàn)。
從0到1入門視頻
一句話識(shí)別
對(duì)時(shí)長較短(一分鐘以內(nèi))的語音進(jìn)行識(shí)別,適用于較短的語音交互場(chǎng)景,如語音搜索、語音指令、語音短消息等,可集成在各類App、智能家電、智能助手等產(chǎn)品中。更多信息,請(qǐng)參見一句話識(shí)別接口說明。
實(shí)時(shí)語音識(shí)別
對(duì)不限時(shí)長的音頻流做實(shí)時(shí)識(shí)別,達(dá)到“邊說邊出文字”的效果,內(nèi)置智能斷句,可提供每句話開始結(jié)束時(shí)間。可用于視頻實(shí)時(shí)直播字幕、實(shí)時(shí)會(huì)議記錄、實(shí)時(shí)法庭庭審記錄、智能語音助手等場(chǎng)景。更多信息,請(qǐng)參見實(shí)時(shí)語音識(shí)別接口說明。
錄音文件識(shí)別
對(duì)用戶上傳的錄音文件進(jìn)行識(shí)別,可用于呼叫中心語音質(zhì)檢、庭審數(shù)據(jù)庫錄入、會(huì)議記錄總結(jié)、醫(yī)院病歷錄入等場(chǎng)景。更多信息,請(qǐng)參見錄音文件識(shí)別接口說明。
針對(duì)免費(fèi)用戶,系統(tǒng)可在24小時(shí)內(nèi)完成識(shí)別并返回識(shí)別文本;針對(duì)付費(fèi)客戶,系統(tǒng)可在3小時(shí)之內(nèi)完成識(shí)別并返回識(shí)別文本,一次性上傳大規(guī)模數(shù)據(jù)(半小時(shí)內(nèi)上傳超過500小時(shí)時(shí)長的錄音)的除外。有大規(guī)模數(shù)據(jù)轉(zhuǎn)寫需求的客戶,可與售前專家另行溝通。
語音合成
通過先進(jìn)的深度學(xué)習(xí)技術(shù),將文本轉(zhuǎn)換成自然流暢的語音。目前有多種音色可供選擇,并提供調(diào)節(jié)語速、語調(diào)、音量等功能。適用于智能客服、語音交互、文學(xué)有聲閱讀和無障礙播報(bào)等場(chǎng)景。更多信息,請(qǐng)參見語音合成接口說明。
語音合成CosyVoice大模型
語音合成CosyVoice大模型服務(wù)是依托大規(guī)模預(yù)訓(xùn)練語言模型,深度融合文本理解和語音生成的一項(xiàng)新型語音合成技術(shù),能夠精準(zhǔn)解析并詮釋各類文本內(nèi)容,將其轉(zhuǎn)化為宛如真人般的自然語音。
離線語音合成
在弱網(wǎng)或無網(wǎng)狀態(tài)下,通過設(shè)備本地的語音合成模型,將文本轉(zhuǎn)換成自然流暢的語音。
目前有多種音色可供選擇,并提供調(diào)節(jié)語速、語調(diào)、音量等功能。適用于車載導(dǎo)航、智能硬件、文學(xué)有聲閱讀和無障礙播報(bào)等場(chǎng)景。以SDK的方式集成,支持多種不同硬件平臺(tái)。按照設(shè)備激活數(shù)量收費(fèi),收費(fèi)更加靈活可控。更多信息,請(qǐng)參見離線語音合成接口說明。
語音合成聲音定制(企業(yè)版)
為您提供深度定制的TTS(Text to Speech)聲音功能:使用先進(jìn)的深度學(xué)習(xí)技術(shù),用更少的數(shù)據(jù)量,更快速高效地定制高表現(xiàn)力的TTS聲音。將自然流暢的聲音輸出到服務(wù)或設(shè)備上。
如果您想體驗(yàn)定制的聲音、了解定制流程,請(qǐng)查看語音合成聲音定制(企業(yè)版)。如有任何需求和疑問,請(qǐng)聯(lián)系:nls_support@service.aliyun.com。
自學(xué)習(xí)平臺(tái)
您可以使用自學(xué)習(xí)平臺(tái)提升識(shí)別效果。它提供了訓(xùn)練熱詞和自學(xué)習(xí)語言模型兩種方式。語音識(shí)別服務(wù)中,通過添加熱詞和使用熱詞模型來改善識(shí)別結(jié)果。在司法、金融等領(lǐng)域,利用語言模型定制進(jìn)行優(yōu)化,提高該業(yè)務(wù)場(chǎng)景下的識(shí)別準(zhǔn)確率。
學(xué)習(xí)路線
快速入門:快速體驗(yàn)智能語音交互服務(wù)。
產(chǎn)品定價(jià):了解智能語音交互服務(wù)的計(jì)費(fèi)情況。
開發(fā)指南:掌握相關(guān)術(shù)語、獲取Access Token等內(nèi)容。
管控臺(tái)指南:詳細(xì)了解管控臺(tái)提供的各項(xiàng)功能。
接口參考選擇需要的服務(wù):一句話識(shí)別、實(shí)時(shí)語音識(shí)別、錄音文件識(shí)別、語音合成等。
自學(xué)習(xí)平臺(tái):通過自學(xué)習(xí)平臺(tái)的熱詞、語言模型定制提升識(shí)別效果。
最佳實(shí)踐:了解智能語音交互服務(wù)的最佳實(shí)現(xiàn)方式。
常見問題:查詢常見問題的解決方案。