什么是音頻拼接
您可以通過音頻拼接功能,將多個音頻拼接為一個音頻并轉(zhuǎn)換為需要的格式。本文介紹音頻拼接功能參數(shù)及示例。
使用場景
音樂創(chuàng)作與制作:音樂人和制作人在創(chuàng)作歌曲時,可能會將多個獨立錄制的樂器或人聲部分拼接起來,形成完整的曲目。
有聲讀物和語音內(nèi)容創(chuàng)作:有聲書制作時,往往將一段段朗讀音頻按照章節(jié)順序拼接起來,確保故事連貫性。
影視后期制作:在電影、電視劇或者動畫片制作過程中,音頻編輯師需將對話、旁白、環(huán)境音效以及配樂等多種音頻元素拼接,以匹配視頻畫面。
社交媒體內(nèi)容創(chuàng)作:用戶在短視頻平臺上傳自創(chuàng)內(nèi)容時,可能會將多種聲音效果、旁白和背景音樂拼接在一起,以增加內(nèi)容的表現(xiàn)力。
注意事項
音頻拼接僅支持異步處理(x-oss-async-process處理方式)。
使用音頻拼接前,需要先綁定IMM Project。關(guān)于控制臺和API如何綁定,請參見快速入門和AttachOSSBucket。
不支持匿名訪問。
必須擁有IMM處理所需的相關(guān)權(quán)限。更多信息,請參見權(quán)限。
當使用默認采樣率或聲道數(shù)進行拼接時,拼接可能由于目標音頻容器的兼容性而失敗。
進行音頻拼接時,最大支持的音頻數(shù)量為 11 個。
參數(shù)說明
操作名稱:audio/concat
具體參數(shù)如下表所示。
拼接參數(shù)
audio/concat
的拼接順序按照pre
與sur
在請求串中的先后順序進行拼接,具體如下:
/pre
:前置拼接的音頻文件。/sur
:后置拼接的音頻文件。
參數(shù) | 類型 | 是否必須 | 描述 |
ss | int | 否 | 前綴、后綴音頻的拼接起始時間,單位為毫秒。取值:
|
t | int | 否 | 前綴、后綴音頻的拼接持續(xù)時長,單位為毫秒。取值:
|
o | string | 是 | 當前Bucket下的OSS Object,需要以Base64 URL安全方式編碼。 |
轉(zhuǎn)碼參數(shù)
參數(shù) | 類型 | 是否必須 | 描述 |
ss | int | 否 | 被拼接音頻的轉(zhuǎn)碼起始時間,單位為毫秒。取值:
|
t | int | 否 | 被拼接音頻的轉(zhuǎn)碼持續(xù)時長,單位為毫秒。取值:
|
f | string | 是 | 音頻容器:
|
ar | int | 否 | 音頻采樣率。默認與align指定的源音頻一致,取值:
說明 不同格式支持的采樣率有所不同,mp3僅支持48kHz及以下;opus支持8kHz、12kHz、16kHz、24kHz與48kHz;ac3支持32kHz、44.1kHz與48kHz;amr僅支持8kHz與16kHz。 |
ac | int | 否 | 音頻聲道數(shù)。默認與align指定的源音頻一致,取值范圍:1~8。 說明 不同格式支持的聲道數(shù)有所不同,mp3僅支持單、雙聲道;ac3最大支持6聲道(5.1);amr僅支持單聲道。 |
aq | int | 否 | 音頻壓縮質(zhì)量。取值范圍:0~100。 說明 該參數(shù)與ab互斥,若都不設置則按照編碼器默認碼率進行編碼。 |
ab | int | 否 | 音頻比特率(碼率)。單位為比特/秒(bps)。取值范圍:1000~10000000。 |
abopt | string | 否 | 音頻碼率選項。取值:
說明 該參數(shù)需要與ab一同設置。 |
align | int | 否 | 主音頻文件(提供默認轉(zhuǎn)碼參數(shù))在拼接列表中的序號,默認為0(對齊拼接列表中第一個音頻)。 |
adepth | int | 否 | 音頻采樣位深,取值為16或24。 說明 該參數(shù)僅在f為flac時有效。 |
使用REST API
將5段不同格式音頻拼接為1段AAC格式音頻
拼接信息
拼接前
音頻名稱:pre1.mp3,pre2.wav,example.oga,sur1.aac,sur2.wma
處理方式
拼接時長與順序:
音頻名稱
順序
時長
pre1.mp3
1
整段音頻
pre2.wav
2
前2秒
example.oga
3
整段音頻
sur1.aac
4
第4秒到第十秒
sur2.wma
5
第10秒到結(jié)尾
轉(zhuǎn)碼完成消息通知:發(fā)送MNS消息
拼接后
音頻信息
音頻格式:aac
音頻配置:44.1kHz采樣率,單聲道
音頻碼率:96 Kbps
文件存儲路徑
aac文件:oss://outbucket/outobj.aac
處理示例
// 對文件example.oga進行音頻拼接。
POST /example.oga?x-oss-async-process HTTP/1.1
Host: video-demo.oss-cn-hangzhou.aliyuncs.com
Date: Fri, 28 Oct 2022 06:40:10 GMT
Authorization: OSS qn6q**************:77Dv****************
x-oss-async-process=audio/concat,f_aac,ac_1,ar_44100,ab_96000,align_2/pre,o_cHJlMS5tcDMK/pre,o_cHJlMi53YXYK,t_2000/sur,o_c3VyMS5hYWMK,ss_4000,t_10000/sur,o_c3VyMi53bWEK,ss_10000|sys/saveas,b_b3V0YnVja2V0,o_b3V0b2JqLnthdXRvZXh0fQo/notify,topic_QXVkaW9Db252ZXJ0
使用SDK
僅支持使用Java、Python、Go SDK通過異步處理的方式完成音頻拼接。
Java
要求使用3.17.4及以上版本的Java SDK。
import com.aliyun.oss.ClientBuilderConfiguration;
import com.aliyun.oss.OSS;
import com.aliyun.oss.OSSClientBuilder;
import com.aliyun.oss.common.auth.CredentialsProviderFactory;
import com.aliyun.oss.common.auth.EnvironmentVariableCredentialsProvider;
import com.aliyun.oss.common.comm.SignVersion;
import com.aliyun.oss.model.AsyncProcessObjectRequest;
import com.aliyun.oss.model.AsyncProcessObjectResult;
import com.aliyuncs.exceptions.ClientException;
import java.nio.charset.StandardCharsets;
import java.util.Base64;
public class Demo {
public static void main(String[] args) throws ClientException, ClientException {
// yourEndpoint填寫B(tài)ucket所在地域?qū)腅ndpoint。
String endpoint = "https://oss-cn-hangzhou.aliyuncs.com";
// 指定阿里云通用Region ID,例如cn-hangzhou。
String region = "cn-hangzhou";
// 從環(huán)境變量中獲取訪問憑證。運行本代碼示例之前,請確保已設置環(huán)境變量OSS_ACCESS_KEY_ID和OSS_ACCESS_KEY_SECRET。
EnvironmentVariableCredentialsProvider credentialsProvider = CredentialsProviderFactory.newEnvironmentVariableCredentialsProvider();
// 指定Bucket名稱。
String bucketName = "examplebucket";
// 指定拼接后的音頻文件名稱。
String targetAudio = "dest.aac";
// 需要拼接的音頻文件名。
String audio1 = "src1.mp3";
String audio2 = "src2.mp3";
// 創(chuàng)建OSSClient實例。
ClientBuilderConfiguration clientBuilderConfiguration = new ClientBuilderConfiguration();
clientBuilderConfiguration.setSignatureVersion(SignVersion.V4);
OSS ossClient = OSSClientBuilder.create()
.endpoint(endpoint)
.credentialsProvider(credentialsProvider)
.clientConfiguration(clientBuilderConfiguration)
.region(region)
.build();
try {
// 構(gòu)建音頻處理的樣式字符串以及音頻拼接處理參數(shù)。
String audio1Encoded = Base64.getUrlEncoder().encodeToString(audio1.getBytes(StandardCharsets.UTF_8)).replace("=", "");
String audio2Encoded = Base64.getUrlEncoder().encodeToString(audio2.getBytes(StandardCharsets.UTF_8)).replace("=", "");
String style = String.format("audio/concat,f_aac,ac_1,ar_44100,ab_96000,align_2/pre,o_%s/pre,o_%s,t_0", audio1Encoded, audio2Encoded);
// 構(gòu)建異步處理指令。
String bucketEncoded = Base64.getUrlEncoder().encodeToString(bucketName.getBytes(StandardCharsets.UTF_8)).replace("=", "");
String targetEncoded = Base64.getUrlEncoder().encodeToString(targetAudio.getBytes(StandardCharsets.UTF_8)).replace("=", "");
String process = String.format("%s|sys/saveas,b_%s,o_%s/notify,topic_QXVkaW9Db252ZXJ0", style, bucketEncoded, targetEncoded);
// 創(chuàng)建AsyncProcessObjectRequest對象。
AsyncProcessObjectRequest request = new AsyncProcessObjectRequest(bucketName, audio1, process);
// 執(zhí)行異步處理任務。
AsyncProcessObjectResult response = ossClient.asyncProcessObject(request);
System.out.println("EventId: " + response.getEventId());
System.out.println("RequestId: " + response.getRequestId());
System.out.println("TaskId: " + response.getTaskId());
} finally {
// 關(guān)閉OSSClient。
ossClient.shutdown();
}
}
}
Python
要求使用Python SDK 2.18.4及以上版本。
# -*- coding: utf-8 -*-
import base64
import oss2
from oss2.credentials import EnvironmentVariableCredentialsProvider
def main():
# 從環(huán)境變量中獲取臨時訪問憑證。運行本代碼示例之前,請確保已設置環(huán)境變量OSS_ACCESS_KEY_ID、OSS_ACCESS_KEY_SECRET。
auth = oss2.ProviderAuthV4(EnvironmentVariableCredentialsProvider())
# 填寫B(tài)ucket所在地域?qū)腅ndpoint。以華東1(杭州)為例,Endpoint填寫為https://oss-cn-hangzhou.aliyuncs.com。
endpoint = 'https://oss-cn-hangzhou.aliyuncs.com'
# 指定阿里云通用Region ID,例如cn-hangzhou。
region = 'cn-hangzhou'
# 指定Bucket名稱,例如examplebucket。
bucket = oss2.Bucket(auth, endpoint, 'examplebucket', region=region)
# 指定拼接后的音頻文件名稱。
target_audio = 'dest.aac'
# 指定需要拼接的音頻文件名稱。
audio1 = 'src1.mp3'
audio2 = 'src2.mp3'
# 構(gòu)建音頻處理的樣式字符串以及音頻拼接處理參數(shù)。
audio1_encoded = base64.urlsafe_b64encode(audio1.encode()).decode().rstrip('=')
audio2_encoded = base64.urlsafe_b64encode(audio2.encode()).decode().rstrip('=')
style = f"audio/concat,f_aac,ac_1,ar_44100,ab_96000,align_2/pre,o_{audio1_encoded}/pre,o_{audio2_encoded},t_0"
# 構(gòu)建異步處理指令。
bucket_encoded = base64.urlsafe_b64encode(bucket_name.encode()).decode().rstrip('=')
target_encoded = base64.urlsafe_b64encode(target_audio.encode()).decode().rstrip('=')
process = f"{style}|sys/saveas,b_{bucket_encoded},o_{target_encoded}/notify,topic_QXVkaW9Db252ZXJ0"
print(process)
# 執(zhí)行異步處理任務。
try:
result = bucket.async_process_object(audio1, process)
print(f"EventId: {result.event_id}")
print(f"RequestId: {result.request_id}")
print(f"TaskId: {result.task_id}")
except Exception as e:
print(f"Error: {e}")
if __name__ == "__main__":
main()
Go
要求使用Go SDK 3.0.2及以上版本。
package main
import (
"encoding/base64"
"fmt"
"log"
"os"
"github.com/aliyun/aliyun-oss-go-sdk/oss"
)
func main() {
// 從環(huán)境變量中獲取臨時訪問憑證。運行本代碼示例之前,請確保已設置環(huán)境變量OSS_ACCESS_KEY_ID、OSS_ACCESS_KEY_SECRET、OSS_SESSION_TOKEN。
provider, err := oss.NewEnvironmentVariableCredentialsProvider()
if err != nil {
fmt.Println("Error:", err)
os.Exit(-1)
}
// 創(chuàng)建OSSClient實例。
// yourEndpoint填寫B(tài)ucket對應的Endpoint,以華東1(杭州)為例,填寫為https://oss-cn-hangzhou.aliyuncs.com。
// yourRegion指定阿里云通用Region ID,例如cn-hangzhou。
client, err := oss.New("https://oss-cn-hangzhou.aliyuncs.com", "", "", oss.SetCredentialsProvider(&provider), oss.AuthVersion(oss.AuthV4), oss.Region("cn-hangzhou"))
if err != nil {
fmt.Println("Error:", err)
os.Exit(-1)
}
// 指定Bucket名稱,例如examplebucket。
bucketName := "examplebucket"
bucket, err := client.Bucket(bucketName)
if err != nil {
fmt.Println("Error:", err)
os.Exit(-1)
}
// 需要拼接的音頻文件名稱。
audio1 := "src1.mp3"
audio2 := "src2.mp3"
// 指定拼接后的音頻文件名稱。
targetAudio := "dest.aac"
// 構(gòu)建音頻處理的樣式字符串以及音頻拼接處理參數(shù)。
audio1Encoded := base64.URLEncoding.EncodeToString([]byte(audio1))
audio2Encoded := base64.URLEncoding.EncodeToString([]byte(audio2))
style := fmt.Sprintf("audio/concat,f_aac,ac_1,ar_44100,ab_96000,align_2/pre,o_%s/pre,o_%s,t_0", audio1Encoded, audio2Encoded)
// 構(gòu)建異步處理指令。
bucketEncoded := base64.URLEncoding.EncodeToString([]byte(bucketName))
targetEncoded := base64.URLEncoding.EncodeToString([]byte(targetAudio))
process := fmt.Sprintf("%s|sys/saveas,b_%s,o_%s/notify,topic_QXVkaW9Db252ZXJ0", style, bucketEncoded, targetEncoded)
// 執(zhí)行異步處理任務。
result, err := bucket.AsyncProcessObject(audio1, process)
if err != nil {
log.Fatalf("Failed to async process object: %s", err)
}
fmt.Printf("EventId: %s\n", result.EventId)
fmt.Printf("RequestId: %s\n", result.RequestId)
fmt.Printf("TaskId: %s\n", result.TaskId)
}