本章節介紹FPGA云服務器的典型應用場景。
直播實時視頻轉碼
阿里云異構GPU/FPGA服務器重點支持2019年雙11貓晚直播的實時視頻轉碼,以高畫質、低帶寬、高分辨率、實時的綜合優勢服務貓晚當天直播業務4K、2K、1080P等各個分辨率的轉碼。其中FPGA H.265高清編碼、720P節省帶寬21.6%,GPU云服務器支持高并發實時視頻流5000路以上,并逐步上升到峰值6200路每分鐘,且順利度過洪峰。異構GPU云服務器還參與實時家居渲染圖片生成等業務,首次提供了大量算力強勁的ebmgn6v裸金屬實例,支持淘寶渲染方提升幾十倍的渲染性能,第一次實現秒級實時渲染,完成總計超過5000張大型家居渲染圖。異構FPGA圖片轉碼業務則以3K+片的超大集群,為淘寶圖片空間提供高達數百萬QPS的處理能力,承擔了雙十一淘寶圖片85%的流量,預計節省計算成本3億。
人工智能
- GPU具有完善的生態和高并行度的計算力,能很好地幫助您實現方案和部署上線。
- 人工智能的發展仍處于早期階段,各個行業正在從算法層面嘗試尋找商業落地的可能性,是一個從0到1的過程。
可以預見在未來幾年,人工智能落地應用越來越多,大規模商業部署漸漸成為可能。這時對于更低功耗、更低成本、更低處理延時、更多定制化等方面的需求將會逐漸凸顯。在人工智能大規模商業部署(推理應用)中,f3實例將具備獨特的性能優勢和廣闊的潛在空間。
GPU計算的處理優勢在于擁有眾多專用的并行計算單元以及超高的顯存帶寬,讓多路大規模數據搬移和快速并行計算成為典型的計算模式,但該模式也導致了每路數據的處理延遲增加。在具有低延遲需求的在線業務場景中,例如語音識別等,在Batch值較小的情況下,f3實例的處理延時僅為GPU的1/10。
深度神經網絡計算的一個發展趨勢是降低數據表示的精度,降低網絡對于計算力的需求,以提高計算吞吐量。從雙精度浮點到單精度浮點,再到定點處理,而定點運算是FPGA的傳統優勢。與GPU相比,FPGA內部配備了眾多的定點處理單元,甚至可以將整個FPGA芯片的內部邏輯資源配置成定點處理單元,進而具備了超高的定點運算能力。
基因測序
基因測序是一種新型基因檢測技術,能夠從血液或唾液中分析測定基因全序列,預測罹患多種疾病的可能性?;驕y序技術能鎖定個人病變基因,提前預防和治療,目前一個廣為人知的用途是針對唐氏綜合征的無創產前基因檢測。隨著基因測序技術的快速發展,基因數據的生成呈現指數級增長,應用也越來越廣泛,對分析能力提出更高要求。
傳統的計算系統通過采用多個高端CPU搭建HPC系統實現了縮短時間的目的,但導致成本增加,行業應用規模以及基因企業發展規模受限。目前中國內地基因企業面臨基因計算成本偏高,但業務需求旺盛的行業困境,急需高性價比的算力資源。
以人類全基因組(WGS)分析為例,使用一臺16 vCPU、64 GiB的CPU實例,完成單個WGS分析耗時近100小時,而f3實例可以在30分鐘以內完成,極大地縮減了計算時間,降低了成本。
IC設計原型驗證
在傳統的數字IC設計流程中,使用FPGA搭建芯片原型驗證平臺測試功能是一個重要環節,驗證過程需要大量的FPGA邏輯單元。而對于傳統數字芯片設計公司,購買或者自研復雜的FPGA驗證單板或平臺,不僅耗時耗力,而且本不是公司主要業務方案。加之FPGA平臺升級換代速度快過芯片設計周期,大型數字芯片設計中追求更大邏輯量FPGA板卡,需要不斷研制最新FPGA板卡一直是個痛點。
f3實例選用單芯片邏輯單元達250萬個的VU9P,支持雙芯片600 Gbit/s互聯以及多板卡間的100 Gbit/s互聯。f3實例最多支持16個VU9P芯片,充分滿足了數字芯片原型驗證階段對于大邏輯量的需求。同時選擇f3實例還可以避免維護復雜FPGA板卡,縮減了驗證平臺的維護成本。
云端壓縮的計算加速
云上用戶在進行大數據存儲、高速網絡傳輸時,常常因為實例性能需要在效率和成本之間做出取舍。gzip是一種廣泛用于互聯網服務的壓縮工具,但傳統的CPU實現gzip效率低、耗時長、難以支撐較大流量。使用帶有FPGA的計算實例進行gzip壓縮,性能比僅用CPU的普通實例提升8~10倍,充分滿足用戶的數據壓縮需求。
在后臺服務日志壓縮、網站靜態資源文件壓縮、批量計算任務壓縮、分布式存儲壓縮等方面均可使用FPGA進行加速。
數據庫加速
以大型互聯網公司為例,每天處理的數據量級都在PB,每天更新的網頁以億計,每24小時更新的日志超過PB,因此需要大型的集群處理大規模的數據。在處理大規模數據時,數據倉庫的性能直接影響數據本身的處理能力。
- 以數據庫處理中的排序單元為例,在PostgreSQL的核心處理單元加速中,f3實例的性能比只使用CPU提升10倍以上。
- 以時序數據處理為例,時序數據廣泛應用于物聯網(IoT)設備監控系統、企業能源管理系統(EMS)、生產安全監控系統、電力檢測系統等行業場景,f3實例單路數據吞吐性能是單核CPU的30倍以上。