預處理視頻文件以提高文件轉寫效率
Paraformer語音識別API可以兼容視頻文件,但由于視頻文件尺寸通常較大、傳輸較為耗時,因此建議您對視頻文件進行預處理。僅提取需要進行語音識別的音軌,并進行合理壓縮,從而顯著降低文件尺寸、減少API調用過程中的文件傳輸耗時、加快文件轉寫吞吐效率。
前提條件
已安裝FFmpeg。
操作步驟
使用FFmpeg提取視頻文件中的第一條音軌、將采樣降到16kHz、并壓縮編碼為OPUS文件。
一般情況下,輸出的音頻文件將顯著小于輸入的視頻文件的尺寸,可向文件轉寫API提交該音頻文件(以URL指定),獲得語音識別結果。
ffmpeg -i input-video-file -ac 1 -ar 16000 -acodec libopus output-audio-file.opus
通過OSS提高文件轉寫效率和穩定性
由于阿里云對象存儲OSS可以便捷地為文件生成URL,從而被指定為API的輸入,對位于同地域OSS中的文件進行轉寫有助于提高轉寫效率和穩定性,因此推薦您使用與Paraformer語音識別API同地域的OSS進行音視頻文件存儲。
Paraformer語音識別文件轉寫API當前部署的地域有:華北2(北京,cn-beijing)。
重要
對同地域的OSS文件進行語音識別文件轉寫時,應指定OSS bucket的內網域名下的URL作為文件名。這將避免產生不必要的OSS網絡流量費用。
更多關于對象存儲OSS的信息,請參見OSS。
文檔內容是否對您有幫助?