本文為您介紹通義聽悟API服務中,各項功能及其對應場景、使用限制與和調用方式。
音視頻文件服務參數表
服務 | 模式 | 文件類型 | 音頻 采樣率 | 文件格式 | 大小限制 | 聲道/路 | 語種 | 支持熱詞語種 | 離線說話人區分 | 識別結果返回方式 | 調用SDK | 源文件傳輸方案 |
實時記錄 | 實時 | 音頻流 | 8k | PCM、OPUS、WAV | 24小時 | 三路 | 中 | 中文 | 不分離 | 按狀態區分:句中按詞返回;句結束整體更新 | Java、Python、GO | webscoket建聯,實時推流 |
音頻流 | 16k | PCM、OPUS、WAV | 24小時 | 三路 | 中、英、粵、日、韓、中英日韓粵德法俄自由說 | 中文 | 不分離、 2人、多人 | 按狀態區分:句中按詞返回;句結束整體更新 | Java、Python、GO | webscoket建聯,實時推流 | ||
音視頻文件轉寫 | 離線 | 音頻文件 | 8k | MP3、WAV、m4a、wma、AAC、ogg、amr、flac、aiff | 6G& 6小時 | 雙聲道 | 中、英 | 中文 | 不分離、2人 | 整體返回轉寫結果及時間戳 | Java、Python、GO | OSS地址 |
音頻文件 | 16k/24k/48k | MP3、WAV、m4a、wma、AAC、ogg、amr、flac、aiff | 6G& 6小時 | 首聲道 | 中、英、粵、日、韓、中英日韓粵德法俄自由說 | 中文 | 不分離、 2人、多人 | 整體返回轉寫結果及時間戳 | Java、Python、GO | OSS地址 | ||
視頻文件 | 16k/24k/48k | mp4、wmv、M4V、flv、rmvb、dat、mov、mkv、webm、avi、mpeg、3gp、ogg | 6G& 6小時 | 首聲道 | 中、英、粵、日、韓、中英日韓粵德法俄自由說 | 中文 | 不分離、 2人、多人 | 整體返回轉寫結果及時間戳 | Java、Python、GO | OSS地址 |
大模型相關能力(前置功能:語音轉寫)
功能 | 最小字數 限制 | 對應最小 音頻時長 | 最佳效果的音頻時長 | 返回內容 限制 | 支持語種 |
全文摘要 | 全文250字 以上 | 完整音頻約70秒以上 | 4小時以內 | 1000字以內 | 中、英、 中英自由說 |
章節速覽 | 章節250字 以上 | 完整音頻約70秒以上 | 4小時以內 | 每段摘要 1000字以內 | 中、英、 中英自由說 |
發言總結 | 發言內容 250字以上 | 完整音頻約70秒以上 | 4小時以內 | 每位發言人1000字以內 | 中、英、 中英自由說 |
問答回顧 | 全文300字 以上 | 完整音頻約90秒以上 | 4小時以內 | 1小時音頻約30-50問答對 單個問答對平均長度90字 | 中、英、 中英自由說 |
待辦事項 | 無限制 | 無限制 | 90秒以上 4小時以內 | 最多6個待辦 5-30字之間 | 中、英 |
關鍵詞 | 全文200字 以上 | 完整音頻約60秒以上 | 70分鐘以內 | 20個詞以內 | 中、英、粵、 中英自由說 |
口語書面化 | 無限制 | 無限制 | 4小時以內 | 無 | 中、英、 中英自由說 |
思維導圖 | 無限制 | 無限制 | 90分鐘以內 | 4級深度 | 中 |
自定義Prompt | 無限制 | 無限制 | 4小時以內 | 1000字以內 | 中、英 |
PPT提取及摘要(前置功能:音視頻文件轉寫;文件類型:視頻)
功能 | 可抽取圖形 | 功能說明 | 摘要支持語種 |
視頻PPT提取 | 全PPT或講課模式 | 上傳完成后,每小時視頻約2~5分鐘;最多提取200張PPT | 不限 |
PPT講解總結 | 全PPT或講課模式 | 轉寫完成后,約1分鐘 | 中、英 |
注:僅支持PPT在主要界面(投屏或周邊有人物視頻),不支持人物在PPT前走動或演講。
可通過通義聽悟網站測試效果。點此測試
通義聽悟翻譯(前置功能:語音轉寫)
服務 | 文件類型 | 音頻采樣率 | 翻譯 | 支持翻譯 |
實時語音翻譯 | 音頻流 | 8k | 實時 | 中、英、日、韓、德、法、俄語間的雙向互譯; 中英自由說翻譯成中、英或中&英 |
音頻流 | 16K | 實時 | ||
音視頻文件翻譯 | 音頻文件 | 8k | 離線 | |
音頻文件 | 16k/24k/48k | 離線 | ||
視頻文件 | 16k/24k/48k | 離線 |