什么是虛擬數(shù)字人開放平臺
本文檔介紹虛擬數(shù)字人開放平臺的定義、產(chǎn)品架構(gòu)、產(chǎn)品能力、控制臺功能、應用場景、產(chǎn)品優(yōu)勢等相關(guān)信息。
虛擬數(shù)字人開放平臺,是由阿里云所提供的數(shù)字人服務,它集成了自然語言處理、圖形圖像、語音等算法能力,提供給客戶標準的 PaaS 接口與后臺運營工具,方便客戶將數(shù)字人能力集成進不同的終端與場景。主要面對的行業(yè)包括新零售、政務、金融、運營商、傳媒等,場景包括數(shù)字人大屏、數(shù)字人直播、數(shù)字人客服、數(shù)字人長/短視頻、數(shù)字人助理等。
產(chǎn)品架構(gòu)
產(chǎn)品能力概述
虛擬數(shù)字人開放平臺包含3D、2D兩種數(shù)字人形式。其中3D數(shù)字人指的是通過三維建模制作的數(shù)字人,2D數(shù)字人指的是通過拍攝真人視頻制作的數(shù)字人。
在產(chǎn)品能力上,虛擬數(shù)字人開放平臺提供了數(shù)字人流媒體、數(shù)字人視頻合成、數(shù)字人資產(chǎn)庫,方便開發(fā)者快速開發(fā)自己的各類數(shù)字人應用。以下為各類產(chǎn)品能力的簡介。
3D數(shù)字人流媒體:提供實時驅(qū)動3D數(shù)字人進行文本播報的產(chǎn)品能力。支持通過API向服務端發(fā)送文本,服務端接收到數(shù)據(jù)后處理成數(shù)字人的聲音、表情、口型、動作,然后將對應數(shù)據(jù)通過流媒體技術(shù)合成視頻流,輸出到對應的流媒體渠道,如官方的阿里云RTC,或者客戶指定的RTMP流媒體服務器,然后客戶可以通過對應的流媒體渠道客戶端SDK進行拉流展示到對應的顯示端,如大屏、手機、web頁面等。3D數(shù)字人流媒體產(chǎn)品支持播報數(shù)字人、互動數(shù)字人、推流數(shù)字人三種模板,分別適合用作數(shù)字人資訊播報、數(shù)字人客服助理、數(shù)字人虛擬直播等場景。其中互動數(shù)字人需要結(jié)合智能對話機器人一起使用。
3D/2D數(shù)字人視頻合成:提供離線驅(qū)動3D/2D數(shù)字人進行文本播報生成對應視頻的產(chǎn)品能力。支持通過API以及SaaS頁面兩種方式向服務端發(fā)送文本,服務端接收到數(shù)據(jù)后處理成數(shù)字人的聲音、表情、口型、動作,然后將對應數(shù)據(jù)合成指定格式的視頻,并提供對應的視頻下載地址,客戶可以從下載地址下載對應的數(shù)字人視頻進行二次編輯和投放。兩種交互形式:
API接口調(diào)用:適合用作批量數(shù)字人視頻制作,或者用于打造開發(fā)者自己的數(shù)字人視頻創(chuàng)作SaaS應用,3D數(shù)字人視頻合成的API已經(jīng)商業(yè)化發(fā)布,2D數(shù)字人視頻合成的API目前正在邀測。
SaaS界面交互:提供一套可供編輯的數(shù)字人視頻制作工具,可以自由選擇數(shù)字人的形象、聲音、布局、字幕等,并最終生成數(shù)字人視頻,目前該種方式的產(chǎn)品功能正在邀測。
3D/2D數(shù)字人資產(chǎn)庫:提供3D/2D數(shù)字人形象的預覽、捏臉、換裝、聲音切換等編輯管理能力。官方提供了豐富的3D數(shù)字人和2D數(shù)字人形象,并支持對官方形象進行預覽和編輯,如換裝以及聲音切換等(2D數(shù)字人形象暫不支持編輯)。平臺資產(chǎn)庫中的所有形象可以直接應用到平臺提供的所有的產(chǎn)品能力中。
目前3D數(shù)字人流媒體、3D數(shù)字人視頻合成的接口調(diào)用已經(jīng)商業(yè)化發(fā)布,3D數(shù)字人資產(chǎn)庫在購買或開通上述兩種能力后可以在同一個阿里云賬號下使用。
2D數(shù)字人視頻合成接口調(diào)用已經(jīng)商業(yè)化發(fā)布,2D數(shù)字人資產(chǎn)庫在購買或開通上述能力后可以在同一個阿里云賬號下使用。
控制臺功能
產(chǎn)品能力概述中提到的各項能力,均可以在虛擬數(shù)字人開放平臺的控制臺中體驗到。
主模塊 | 子模塊 | 模塊內(nèi)容 |
應用中心 | 視頻創(chuàng)作 | 提供一個簡約便捷的Web網(wǎng)頁操作界面,可實現(xiàn)“輸入文本,驅(qū)動數(shù)字人形象生成視頻,并下載視頻內(nèi)容”的效果。 |
開發(fā)者中心 | 項目管理 | 設(shè)置應用名稱、關(guān)聯(lián)的實例,配置關(guān)聯(lián)的數(shù)字人形象、字幕開關(guān)、頁面布局等,并提供開發(fā)者信息。 |
實例管理 | 管理用戶阿里云賬號下的實例,例如續(xù)費、退訂、升降配等。 | |
數(shù)字人卡片 | 包含模板管理與卡片管理兩個功能,數(shù)字人卡片支持用戶在向數(shù)字人發(fā)送文本播報請求的時候加入符合VAML協(xié)議的參數(shù),以實現(xiàn)在數(shù)字人流媒體畫面中出現(xiàn)圖文及選項卡片的效果。 | |
資產(chǎn)中心 | 2D數(shù)字人資產(chǎn) | 管理2D數(shù)字人,設(shè)置角色名稱、角色描述、角色語音,支持增刪改查。 |
3D數(shù)字人資產(chǎn) | 管理3D數(shù)字人,設(shè)置角色名稱、角色描述、角色語音,支持對數(shù)字人的發(fā)型、妝容、服裝以及背景進行設(shè)置,支持增刪改查。 |
應用場景
資訊播報:通過 PaaS 接口傳遞數(shù)字人即將播報的文本,可以獲得數(shù)字人播報的視頻流,通過在端上集成 RTC 拉流可以實現(xiàn)數(shù)字人資訊播報的效果。詳情請見接入指南與數(shù)字人流媒體開發(fā)指南。
虛擬直播:直接通過RTMP協(xié)議將數(shù)字人流媒體推送到直播平臺從而實現(xiàn)數(shù)字人開播效果,需要注意的是數(shù)字人的互動、問答需要開發(fā)者自行實現(xiàn)。詳情請見接入指南與數(shù)字人流媒體開發(fā)指南。
客服助理:通過數(shù)字人流媒體服務,結(jié)合智能對話機器人或其他對話能力,可以實現(xiàn)與數(shù)字人進行自然語言互動的效果。詳情請見接入指南與數(shù)字人流媒體開發(fā)指南。
視頻合成:通過接口傳遞數(shù)字人即將播報的文本,可以合成數(shù)字人的視頻及相應的字幕下載地址,可以調(diào)節(jié)數(shù)字人的機位、選擇視頻輸出格式。詳情請見接入指南與數(shù)字人視頻合成開發(fā)指南。
產(chǎn)品優(yōu)勢
簡單高效的 PaaS 服務接口
客戶調(diào)用虛擬數(shù)字人能力只需要通過標準的 Text To Stream 數(shù)字人流媒體接口即可,無需關(guān)注底層數(shù)字人驅(qū)動的具體實現(xiàn)方式。
完善的控制臺運營工具
支持自定義數(shù)字人的聲音、形象等,內(nèi)置數(shù)十種數(shù)字人裝扮,方便客戶針對不同業(yè)務屬性創(chuàng)建不同風格的數(shù)字人形象。
語音、視覺多模態(tài)交互
毫秒級實時的語音流、視頻流處理技術(shù),數(shù)字人實現(xiàn)語音、表情、手勢動作和環(huán)境的多維度多方位立體交互。
內(nèi)置資產(chǎn)
支持3D卡通、3D美型、2D真人數(shù)字人形象,以及普通話、方言等不同類型和風格的發(fā)音人。
高內(nèi)聚標準接口
封裝了數(shù)字人渲染、驅(qū)動、構(gòu)建、互動等能力,無需關(guān)注內(nèi)部實現(xiàn),大大降低研發(fā)周期和成本。
多元化媒體服務
提供RTC、RTMP、視頻合成等不同的媒體服務。
自助擴縮容
提供自助升降配功能,以及彈性、停復機等按量計費能力。
使用虛擬數(shù)字人開放平臺
要使用虛擬數(shù)字人開放平臺開發(fā)自己的數(shù)字人應用,可以參考準備工作、接入指南、開通服務、創(chuàng)建并配置數(shù)字人應用等文檔。