AI實時互動能夠實現AI與用戶之間的高效音視頻互動,本文檔將從應用能力和產品優勢等多個方面來介紹AI實時互動。
產品簡介
AI實時互動是一種旨在幫助企業快速構建AI與用戶之間的音視頻通話應用的解決方案。用戶只需通過白屏化的界面操作,即可在10分鐘內構建一個專屬的AI智能體,并通過視頻云通訊網絡與終端用戶進行實時交互。該方案適用于網絡客服、AI助理、AI伴侶、撮合助手、虛擬老師等多種應用場景,使用戶能夠在短時間內快速構建AI實時互動能力。
應用能力
在AI實時互動功能中,AI智能體被定義為云端高擬真用戶,用于實現與用戶的音視頻交互。為了滿足不同的交互需求,您需要為智能體配置相應的工作流。阿里云為您提供了三種工作流類型,以滿足您的業務需求。
語音通話 用戶通過語音與智能助手交流對話,獲取即時的信息反饋和服務。 | 數字人通話 通過視頻方式與數字人對話,為用戶提供更加真實的互動體驗。 | 視覺理解通話 通過視頻方式與智能體互動,智能體將結合用戶的語音和攝像頭畫面來提供反饋。 |
以創建語音通話工作流模板為例: 您只需要配置以下3個節點,就能完成語音通話工作流的創建。 |
您可以前往Demo體驗,以全面了解上述能力。
應用場景
知識問答
知識問答系統可以作為在線客服和智能助手,為用戶提供快速且準確的答案與解決方案。通過對大量問題及答案的學習和理解,系統能夠根據用戶提出的問題進行有效回答,從而提升用戶體驗和服務質量。
產品優勢
全球高可用、低延遲:依托阿里云的實時音視頻網絡體系,全球3200+節點覆蓋和QoS優化,使得用戶可以在全球的任何位置與AI智能體流暢的完成音視頻通話。
易接入、易調試:您可以將AI組件(如語音轉文字、大模型、語音合成、自研向量數據庫等)以插件的形式整合到工作流中,從而迅速開展業務,并在此過程中便捷地對整體技術方案進行調試。
高度擬人化:阿里云通過持續迭代和優化智能降噪、智能打斷、智能斷句等功能,使智能體在互動行為上更接近于人類。
易集成:阿里云為您提供四種集成方式來幫助您搭建AI實時互動系統,以滿足不同場景和需求下的應用構建。具體詳情,請參考集成方案概覽。
實現原理
用戶通過終端SDK發起與云端AI智能體的實時音視頻通話;
AI智能體接收到用戶的音視頻輸入后,開始運轉工作流,并輸出AI的響應結果;
AI智能體將響應結果的音視頻流推送到ARTC網絡,用戶可以訂閱該音視頻流進行播放,從而完成用戶與AI智能體的對話。
功能說明
功能 | 說明 |
實時通話(ARTC) | 阿里云實時音視頻方案,依托該方案用戶可以與AI智能體進行全球范圍的高可靠、低延時通話。 |
實時工作流 | 您可以使用白屏化的方式,靈活地編排智能體AI的工作流。
|
自定義智能體形象 | 您可以為所創建的智能體上傳一張圖片,以便在語音通話場景中展示該智能體的形象。 |
歡迎詞 | 您可以在控制臺中配置歡迎詞內容,當用戶與AI智能體開始對話時,智能體將播報該歡迎詞內容。 |
主動播報 | 業務服務器可以通過OpenAPI的形式,讓智能體主動向用戶輸出音視頻內容。 |
實時字幕 | 用戶與智能體之間的對話內容可在終端用戶界面上實時呈現。 |
智能降噪 | AI智能體將自動過濾對話過程中用戶側產生的嘈雜音。當用戶側有多個人同時說話時,將優先采集音量最大的人聲。 |
智能打斷 | 在與AI智能體對話時,AI智能體能夠有效識別用戶在對話中的打斷意圖。 |
智能斷句 | 智能體能夠自動識別并分割長句或復雜句,以提升文本的可讀性和用戶體驗。 |
對講機模式 | 用戶可以在啟動或者通話中設置通話模式為對講機模式,通過按下按鈕與智能體進行交互。 |
ASR熱詞 | 您可以定義業務相關的熱詞,以此提升AI智能體在語音識別中的準確率。 |
聲紋降噪 | 在多人交談的場景中,智能體通過識別主講人的聲紋特征,更加精確地捕捉和保留主講人的語音,同時降低對無關噪音的干擾。 |
真人接管 | 在用戶與智能體進行交互時,如遇無法處理的情況或需做出關鍵決策時,可以選擇由真人進行接管以做出決策。 |
優雅下線 | 當業務服務器需要停止智能體時,允許智能體完成當前對話的表達后再進行停止操作,以避免對話被生硬地打斷。 |
數據歸檔 | 將用戶與AI智能體的對話轉化為文本信息并進行存儲,企業可通過API接口調用以消費這部分數據。同時,企業可以將用戶與AI智能體通話的音視頻數據存儲至對象存儲服務(OSS)或視頻點播(VOD)平臺。 |
計費說明
詳細計費內容,請前往AI實時互動計費說明。
常見問題
聯系我們
更多產品咨詢問題或使用支持,歡迎通過釘釘掃描下方二維碼,加入群聊聯系我們。