PAI靈駿是一種大規模高密度計算服務,全稱“PAI靈駿智算服務”,提供高性能AI訓練、高性能計算所需的異構計算算力服務。PAI靈駿主要面向圖形圖像識別、自然語言處理、搜索廣告推薦、通用大模型等大規模分布式的AI研發場景,適用于自動駕駛、金融風控、藥物研發、科學智能、元宇宙、互聯網和ISV等行業。您只需為AI訓練所消耗的資源付費,無需建設、調優和運維復雜的計算節點、存儲及RDMA網絡,即可使用高擴展性、高性能、高性價比的智能計算基礎設施環境。
產品架構
PAI靈駿是軟硬件一體化設計的算力集群服務,硬件涵蓋了服務器、網絡、存儲以及集群的整體交付管理等,軟件包括算力資源管控運維、AI加速套件、云原生任務管理,以及完善的AI開發作業平臺,支持Pytorch、TensorFlow等常見AI框架。
PAI靈駿的底層硬件核心組件由磐久服務器和高性能RDMA網絡兩部分組成:
服務器采用阿里云自研的磐久服務器,在核心配置上進行多項優化,充分保證硬件的性能釋放。
網絡支持常見的Fat-Tree網絡拓撲,支持TCP/IP和RDMA等多種通信協議。其中,PAI靈駿25G網絡和100G網絡獨立組網;25G網絡用于服務器帶內管理,100G網絡的多個網卡用于AI訓練業務的高效通信。為提升PAI靈駿網絡可用性,PAI靈駿支持雙上聯組網,每個網卡的兩個端口分別接到兩個交換機上,在連接出現故障時可自動切換,保證網絡可用性。
軟件架構自底向上包括資源管理、計算加速庫、機器學習和深度學習框架、開發環境以及任務管理等多個部分。
資源管理部分,PAI靈駿通過容器技術(Docker)進行資源的劃分和調度,并兼容Kubernetes(K8s)等編排工具。
系統的運維和監控,采用阿里巴巴的天基系統對集群的底層資源和狀態進行實時監控。
支持加速庫,主要對PAI靈駿集群的通信進行了深度的定制優化。
計算系統支持任務的界面化提交和任務日志查看,支持主流的AI計算框架,例如:PyTorch、TensorFlow等。
為什么選擇PAI靈駿
選擇PAI靈駿,您可以輕松構建具有以下優勢的智能集群:
算力即服務。提供高性能、高彈性異構算力服務,支持萬張GPU規模的資源彈性,單集群網絡容量高達4Pbps,時延低至2微秒。
高資源效率。資源利用率提升3倍,并行計算效率提升90%以上。
融合算力池。支持AI+HPC場景算力的統一分配和融合調度,無縫連接。
算力管理監控。為異構算力深度定制IT運維管理平臺,實現異構算力到池化資源到使用效率的全流程監控管理。
產品優勢
加速AI創新。全鏈路性能提速,計算密集型項目迭代效率可提升2倍以上。
最大化ROI。高效的池化異構算力調度技術,確保每一份算力投入都能得到充分利用,資源利用率可提升3倍。
無懼規模挑戰。輕松應對大模型和大規模工程仿真的算力需求,讓創新不受算力限制。
可視又可控。簡單地管理異構算力的分配,并持續地監控和優化。
應用場景
PAI靈駿主要面向圖形圖像識別、自然語言處理、搜索廣告推薦、通用大模型等大規模分布式的AI研發場景,適用于自動駕駛、金融風控、藥物研發、科學智能、元宇宙、互聯網和ISV等行業。
大規模分布式訓練。
超大規模GPU算力系統。
全對等網絡架構,全資源池化,可以搭配PAI(機器學習平臺)使用,支持多種訓練框架(Pytorch、TensorFlow、Caffe、Keras、XGBoost、Mxnet等),可以滿足多種規模的AI訓練和推理業務。
AI基礎設施。
平滑擴容。滿足不同規模GPU算力需求,平滑擴容,性能線性拓展。
智能數據加速。針對AI訓練場景提供數據智能加速,主動預熱訓練所需數據,提升訓練效率。
更高資源利用率。支持異構資源細粒度管控,提升資源周轉效率。
自動駕駛。
豐富的部署和調度策略。
多種GPU資源調度策略,保證訓練任務高效執行。文件存儲CPFS(Cloud Paralleled File System)搭配RDMA網絡架構,保證訓練數據供給和計算IO;并可使用OSS分級存儲降低歸檔數據存儲成本。
同時支持訓練和仿真場景。
融合算力智能供應,同時支持訓練仿真兩種場景,從協同模式上提升迭代效率,降低數據遷移成本。
科學智能。
拓展提升創新上限。
基于數據中心超大規模RDMA“高速網”和通信流控技術,實現端到端微秒級通信時延,超大規模線性拓展可打造萬卡級并行算力。
融合生態,拓展創新邊界。
支持HPC和AI任務融合調度,為科研和AI提供統一協同的底座支撐,促進技術生態融合。
云上科研,普惠算力。
支持云原生和容器化的AI和HPC應用生態,資源深度共享,普惠的智能算力觸手可得。
功能特性
高速RDMA網絡架構。阿里巴巴2016年開始投入專項研究RDMA(Remote Direct Memory Access),
目前已建成大規模數據中心內的“高速網”,通過大規模RDMA網絡部署實踐,阿里云自主研發了基于端網協同的RDMA高性能網絡協議和HPCC擁塞控制算法,并通過智能網卡實現了協議硬件卸載,降低了端到端網絡延時,提升了網絡IO吞吐能力,并有效規避和弱化了網絡故障、網絡黑洞等傳統網絡異常給上層應用帶來的性能損失。
高性能集合通信庫ACCL。PAI靈駿支持高性能集合通信庫ACCL(Alibaba Collective Communication Library),結合硬件(例如:網絡交換機),對萬卡規模的AI集群提供無擁塞、高性能的集群通訊能力。阿里云通過通信庫ACCL實現了GPU和網卡的智能匹配、節點內外物理拓撲自動識別及拓撲感知的無擁塞通信算法,徹底消除網絡擁塞,提升網絡通信效率,提高分布式訓練系統的擴展性。在萬卡規模下,可達80%以上的線性集群能力。在百卡規模下,有效(計算)性能可達95%以上,可滿足80%以上的業務場景需求。
高性能數據主動加載加速軟件KSpeed。PAI靈駿基于高性能網絡RDMA和高性能通信ACCL,研發高性能數據主動加載加速軟件KSpeed,進行智能數據IO優化。計算存儲分離架構廣泛存在于AI、HPC、大數據業務場景中,但大量訓練數據的加載容易形成效率瓶頸。阿里云通過高性能數據主動加載加速軟件KSpeed,實現數據IO數量級性能提升。
GPU容器虛擬化方案eGPU。針對AI作業規模龐大、GPU硬件資源昂貴、集群GPU利用率低等業務場景實際遇到的問題,PAI靈駿支持GPU虛擬化技術eGPU,可有效提升AI集群的GPU利用率,具體如下:
支持顯存、算力雙維度自由切分。
支持多個規格。
支持動態創建、銷毀。
支持熱升級。
支持用戶態技術,保證更高可靠性。
PAI靈駿網絡使用限制
限制項 | 限制 | 提升配額方式 |
單個賬號在同一地域支持創建的靈駿網段數量 | 8 | 具體操作,請參見管理配額。 |
單個靈駿網段支持創建的靈駿子網數量 | 16 | 具體操作,請參見管理配額。 |
單個靈駿子網內的靈駿節點數量 | 1000 | 無 |
單個靈駿網段內的靈駿節點數量 | 1000 | 無 |
靈駿網段和靈駿子網支持配置的網段 | 可以使用除 | 無 |
單個賬號在同一地域支持創建的靈駿連接實例數量 | 16 | 無 |
單個靈駿連接實例從公共云學習的IPv4路由條目數 | 50 | 無 |
單個靈駿連接實例從公共云學習的IPv6路由條目數 | 25 | 無 |
單個賬號在同一地域支持創建的靈駿HUB實例數量 | 4 | 具體操作,請參見管理配額。 |
單個靈駿網段支持連接的靈駿HUB數量 | 1 | 具體操作,請參見管理配額。 |
單個靈駿連接支持連通的靈駿HUB實例數量 | 1 | 具體操作,請參見管理配額。 |
單個靈駿HUB實例支持連通的靈駿連接數量 | 32 | 具體操作,請參見管理配額。 |
單個靈駿HUB實例支持的同一地域所有靈駿網段中的靈駿節點數量 | 2000 | 無 |
單個靈駿HUB支持配置的路由策略條目數量 | 100 | 無 |
單個靈駿網卡支持的輔助私網IP數量 | 3 | 具體操作,請參見管理配額。 |