阿里云異構計算產品為您提供了軟件與硬件結合的完整服務體系,助力您在人工智能業務中實現資源的靈活分配、彈性擴展、算力的提升以及成本的控制。
什么是異構計算
異構計算(Heterogeneous Computing)是指使用不同類型指令集和體系架構的計算單元組成系統的計算方式,目前主要包括GPU云服務器、FPGA云服務器以及彈性加速計算實例EAIS等。異構計算能夠讓最適合的專用硬件去服務最適合的業務場景,在特定場景下,異構計算產品比普通的云服務器高出一個甚至更多數量級的性價比和效率。異構計算的顯著優勢在于實現了讓性能、成本和功耗三者均衡的技術,通過讓最合適的專用硬件去做最適合的事來調節功耗,從而達到性能和成本的最優化。
隨著以深度學習為代表的人工智能技術的飛速發展,AI計算模型越來越復雜和精確,人們對于算力和性能的需求也大幅度增加,因此,越來越多的AI計算都采用異構計算來實現性能加速。阿里云異構計算云服務研發了云端AI加速器,通過統一的框架同時支持了TensorFlow、PyTorch、MXNet和Caffe四種主流AI計算框架的性能加速,并且針對以太網和異構加速器本身進行了深入的性能優化。
阿里云異構計算產品家族介紹
下文為您介紹阿里云異構計算產品家族:GPU云服務器以及彈性加速計算實例EAIS等異構產品。而神行工具包(DeepGPU)服務于GPU云服務器,為GPU云服務器搭配了GPU計算服務增強能力,其包括AI加速器Deepytorch、通信優化庫AIACC-ACSpeed、計算優化編譯器AIACC-AGSpeed、集群極速部署工具FastGPU、GPU容器共享技術cGPU。
GPU云服務器
GPU云服務器是基于GPU應用的計算服務器。GPU在執行復雜的數學和幾何計算方面有著獨特的優勢。特別是浮點運算、并行運算等方面,GPU可以提供上百倍于CPU的計算能力。作為阿里云彈性計算家族的一員,GPU云服務器結合了GPU計算力與CPU計算力,同時實現GPU計算資源的即開即用和彈性伸縮。滿足您在人工智能、高性能計算、專業圖形圖像處理等場景中的需求。更多信息,請參見什么是GPU云服務器。
神行工具包(DeepGPU)
神行工具包是阿里云專門為GPU云服務器搭配的GPU計算服務增強工具集合,用戶可以基于IaaS產品快速構建企業級服務能力。目前所有神行工具包中的組件都是免費搭配阿里云GPU服務器使用,幫助用戶更方便、更高效地使用阿里云上的GPU資源。神行工具包主要包括以下幾個組件:
AI加速器Deepytorch:是阿里云自研的AI加速器,為生成式AI和大模型場景提供訓練和推理加速功能,包含Deepytorch Training和Deepytorch Inference兩個軟件包。更多信息,請參見什么是Deepytorch。
AI分布式訓練通信優化庫AIACC-ACSpeed:是阿里云推出的AI分布式訓練通信優化庫AIACC-Training 2.0版本,基于模塊化的解耦優化設計方案。更多信息,請參見什么是AI分布式訓練通信優化庫AIACC-ACSpeed。
AI訓練計算優化編譯器AIACC-AGSpeed:是阿里云推出的一個基于PyTorch深度學習框架研發的計算優化編譯器,用于優化PyTorch深度學習模型在阿里云GPU異構計算實例上的計算性能。更多信息,請參見什么是計算優化編譯器AIACC-AGSpeed。
集群極速部署工具FastGPU:是一套阿里云推出的人工智能計算極速部署工具。更多信息,請參見什么是集群極速部署工具FastGPU。
GPU容器共享技術cGPU:是阿里云基于內核虛擬GPU隔離的容器共享技術,助力您在GPU中快速便捷地部署容器,實現多個容器共享一張GPU卡,使業務安全隔離,提高GPU硬件資源的利用率并降低使用成本。更多信息,請參見什么是GPU容器共享技術cGPU。
彈性加速計算實例EAIS
EAIS是一款阿里云提供的性能卓越、成本優化、彈性擴展的IaaS(Infrastructure as a Service)級別彈性計算服務。實現了異構計算資源的彈性掛載,即前端可以使用不帶異構加速的ECS實例,后端可以動態掛載或卸載GPU實例,讓普通的ECS具備異構計算加速的能力,使CPU資源與GPU資源成功解耦。EAIS讓CPU與異構加速器的數量配比實現了靈活可配置,從而滿足AI推理等場景對于CPU和異構加速器的數量配比的不同需求。同時,后端的GPU實例通過池化管理和調度,可以靈活選擇最適合您工作負載的異構加速器,降低異構加速成本。更多信息,請參見什么是彈性加速計算實例EAIS。