GPU云服務器適用于視頻轉碼、圖片渲染、AI訓練、AI推理、云端圖形工作站等場景,神行工具包(DeepGPU)為了配合GPU云服務器的計算服務增強能力,也適用于所有AI訓練場景和AI推理場景。本文主要介紹GPU云服務器和神行工具包(DeepGPU)的具體應用場景。
GPU云服務器應用場景
直播實時視頻轉碼
阿里云GPU云服務器重點支持2019年天貓雙11狂歡夜直播的實時視頻轉碼,以高畫質、低帶寬、高分辨率、實時的綜合優勢服務于天貓雙11狂歡夜當天直播業務4K、2K、1080P等各個分辨率的轉碼。具體說明如下:
GPU云服務器支持高并發實時視頻流5000路以上,并逐步上升到峰值6200路每分鐘,且順利度過流量洪峰。
GPU云服務器參與實時家居渲染圖片生成等業務,首次提供了大量算力強勁的ebmgn6v裸金屬實例,支持淘寶渲染方提升幾十倍的渲染性能,第一次實現秒級實時渲染,完成總計超過5000張大型家居渲染圖。
AI訓練
GPU計算型實例規格族gn6v和gn6e具有優異的通用GPU計算加速能力,適合為深度學習提供加速引擎。具體說明如下:
gn6v實例配備具有16 GB顯存的NVIDIA V100 GPU計算卡,gn6e實例配備具有32 GB顯存的NVIDIA V100 GPU計算卡,單節點可提供高達1000 TFlops的混合精度計算能力。
實例與彈性計算生態的完美結合,為在線和離線場景提供了通用的解決方案。
實例搭配容器服務使用,可以簡化部署和運維的復雜度,提供資源調度服務。
AI推理
GPU計算型實例規格族gn6i具有優異的AI推理能力,滿足了深度學習(尤其是推理)場景下的算力需求。具體說明如下:
gn6i實例基于配備NVIDIA Tesla T4 GPU計算卡,單精度浮點計算能力最高可達8.1 TFlops,int8定點運算處理能力最高可達130 TOPS,支持混合精度。
單卡功耗僅75 W,具有極高的性能功耗比。
實例與彈性計算生態的完美結合,為在線和離線場景提供了通用的解決方案。
實例搭配容器服務使用,可以簡化部署和運維的復雜度,并提供資源調度服務。
鏡像市場提供預裝NVIDIA GPU驅動和深度學習框架的鏡像,簡化您的部署操作。
云端圖形工作站
GPU計算型實例規格族gn6i采用基于Turing架構的NVIDIA Tesla T4 GPU加速器,具有極佳的圖形計算能力。gn6i實例可以結合云桌面產品提供云端圖形工作站服務,應用于影視動畫設計、工業設計、醫療成像、高性能計算的結果呈現等場景。
神行工具包(DeepGPU)應用場景
神行工具包中的組件主要包括神龍AI加速引擎AIACC(AIACC-Training和AIACC-Inference)、AI分布式訓練通信優化庫AIACC-ACSpeed、AI訓練計算優化編譯器AIACC-AGSpeed、集群極速部署工具FastGPU以及GPU容器共享技術cGPU,該工具主要適用于AI訓練和AI推理場景。具體說明如下:
AI訓練
AIACC適用于所有AI訓練場景和AI推理場景。AIACC-ACSpeed和AIACC-AGSpeed適用于所有基于PyTorch框架的AI訓練場景,并針對PyTorch框架可以實現定制化的深度優化功能。
AIACC進行AI訓練的典型業務場景如下所示:
場景
適用模型
常用存儲
圖像分類、圖像識別
MXNet框架的模型
并行文件存儲系統CPFS
CTR預估
TensorFlow框架的Wide&Deep模型
文件系統HDFS
NLP自然語言處理
TensorFlow框架的Transformer、Bert模型
并行文件存儲系統CPFS
AIACC-ACSpeed進行AI訓練的典型業務場景如下所示:
場景
適用模型
常用存儲
圖像分類、圖像識別
Resnet、VGG16模型等,以及Stable Diffusion等AIGC模型
并行文件存儲系統CPFS
CTR預估
Wide&Deep模型
文件系統HDFS
NLP自然語言處理
Transformer、Bert模型等
并行文件存儲系統CPFS
大模型
Megatron-LM、DeepSpeed等混合并行的LLM大模型場景的Pretrain和Finetune
并行文件存儲系統CPFS
AGSpeed進行AI訓練的典型業務場景如下所示:
場景
適用模型
圖像分類
ResNet、MobileNet等模型
圖像分割
Unet3D等模型
NLP自然語言處理
BERT、GPT2、T5等模型
AI推理
AIACC能夠適用于所有AI推理場景。該工具進行AI推理的典型業務場景如下所示:
場景
適用模型
配置信息
性能優化措施
視頻超分推理
超分模型
T4 GPU
進行了如下性能優化,將性能提升至原來的2.7倍。
視頻解碼移植到GPU。
前后處理移植到GPU。
自動湊滿一次運算所需的數據集大小。
卷積的深度優化。
圖像合成在線推理
GAN模型
T4 GPU
進行了如下性能優化,將性能提升至原來的4倍。
前后處理移植到GPU。
自動湊滿一次運算所需的數據集大小。
卷積的深度優化。
CTR預估推理
Wide&Deep模型
M40 GPU
進行了如下性能優化,將性能提升至原來的6.1倍。
流水線優化。
模型拆分。
子模型分別優化。
自然語言處理推理
Bert模型
T4 GPU
進行了如下性能優化,將性能提升至原來的3.3倍。
前后處理流水線優化。
自動湊滿一次運算所需的數據集大小。
Kernel深入優化。