智能媒體服務支持通過對真人語音的學習訓練,實現人聲克隆定制的功能。通過閱讀本文,您可以了解如何定制及使用克隆的人聲。
人聲克隆定制
智能媒體服務提供人聲克隆定制服務,支持基礎版、大眾版(輕量定制)和高級定制版三檔定制方案,您可以根據場景和實際需求選擇定制方案。
基礎版:您需要選擇場景(交互、故事、導航)后,按流程朗讀20句話,并上傳對應的語音,系統會采用標準化統一算法,3小時內快速輸出克隆人聲,可快速低成本的模擬關鍵聲紋特征。
大眾版(輕量定制):您需要自助提交豐富、清晰、高質量長度約20~30分鐘的語音物料,基于阿里云輕量定制的算法服務,實現滿足常見大眾場景的人聲擬真效果。
高級定制版:阿里云提供專業(yè)的錄制導師、訓練算法和結果調優(yōu)的全流程服務,針對單個人聲進行訓練算法定制,預期可達到廣電傳媒級的擬真效果,實現個性化高標準人聲還原。
人聲克隆定制方案 | 訓練(錄制)方式 | 提交訓練素材方式 |
基礎版 | 自行通過手機或專業(yè)錄音采集設備錄制語音。 | 通過控制臺或OpenAPI自行上傳訓練素材,即可快速低成本的進行人聲克隆定制。具體操作,請參見人聲克隆定制。 |
大眾版(輕量定制) | 專業(yè)錄音采集設備錄制語音或收集日常采集的多段清晰人聲錄音。 | 通過控制臺或OpenAPI自行上傳訓練素材,即可快速低成本的進行人聲克隆-大眾版(輕量定制)定制。具體操作,請參見人聲克隆定制。 |
高級定制版 | 通過釘釘加入群48335001108,聯系官方客服咨詢定制流程。 |
在錄制時,請嚴格遵守以下事項:
錄制環(huán)境需要保持安靜。
僅支持標準普通話,錄制時注意吐字清晰。
使用單一人聲進行定制提交。
錄音設備確保無雜音,如果條件允許,盡量使用專業(yè)錄音采集設備。
使用克隆的人聲
人聲克隆定制完成之后,定制的人聲可用于以下場景:
文字轉語音TTS,關于對應的OpenAPI和控制臺操作,請參見SubmitAudioProduceJob和智能生成配音。
驅動方式為“文字驅動”的數字人視頻合成,詳情請參見創(chuàng)建數字人視頻合成任務。