智算服務 PAI-靈駿是面向大規模深度學習及融合智算的PaaS產品,基于軟硬件一體優化技術,構建高性能異構算力底座,提供AI工程化全流程能力,具備高性能、高效率、高利用率等核心優勢,滿足高性能計算等領域需求,在大模型訓練、自動駕駛、基礎科研、金融等領域廣泛應用。
大規模分布式訓練
支持Serverless架構的AI研發場景,能夠處理包括GPT-3(175B參數)、M6(萬億參數)、PLUG、STAR等大規模模型的訓練任務,提供深度優化的智能計算服務,適用于圖形圖像處理(如AIGC圖像生成)、自然語言處理(如AIGC文本生成)、語音和視頻等應用領域,確保高效且可預期的訓練服務,從而加速模型迭代效率。
“萬卡級”線性擴展 支持不同規模的AI訓練算力需求,實現點對點通信延遲低至2微秒,確保算力資源的平滑擴容和性能的線性擴展。
超高吞吐和IOPS 針對AI訓練場景,將數據預先加載至持久化存儲,以滿足訓練過程中數據加載和寫入的高帶寬需求,從而提升訓練效率。
高資源利用率 通過對GPU資源進行細粒度的切分和調度,支持協同開發。該技術已通過雙十一大規模應用驗證,資源利用率提升可達3倍。
自動駕駛
提供一站式的訓練與仿真平臺,支持全場景應用,并通過多種GPU資源調度策略、RDMA網絡和CPFS存儲系統,確保高效的數據處理和計算能力。與此同時,平臺注重數據安全與合規,提供了豐富的部署和調度策略,提升迭代效率并降低數據遷移成本。
高效的訓練與仿真支持
提供統一的平臺支持訓練和仿真需求,簡化開發流程,并通過多種GPU資源調度策略,保證訓練任務的高效執行。
文件存儲CPFS與RDMA網絡架構相結合,確保訓練數據的高帶寬供給和計算IO性能,同時通過OSS分級存儲降低歸檔數據的存儲成本。
全面的安全與合規保障
平臺支持多種自動駕駛應用場景,符合安全與合規要求,包括數據安全中心、云防火墻、堡壘機、加密服務、SSL加密、訪問控制和數據庫審計,確保數據和應用的安全性。
高資源利用率與靈活擴展
對GPU資源進行細粒度切分和調度,支持協同開發,資源利用率可提升至3倍。云上資源彈性擴展可選,按需打通,確保靈活的資源管理,提升迭代效率并降低數據遷移成本。
科研智算
通過超大規模融合算力,實現對深度學習和高性能計算任務的統一部署與調度,為基礎科研、新藥研發、工程仿真等領域提供統一的標準化計算服務。此舉不僅推動了范式創新和效率提升,還促進了AI與高性能計算(HPC)開發生態的深度融合。
促進科研新范式
通過支持云原生和容器化的AI與HPC應用生態,為基礎科研、新藥研發、新材料研究等領域提供統一的計算服務,支持跨地區、跨團隊的協同作業,提高資源利用率,并推動技術生態的融合,增強協同效應。
打造科研大平臺
利用RDMA技術和阿里云高性能通信庫,構建低延遲、高帶寬的網絡環境,針對AI與HPC應用進行通信優化,實現了點對點通信延遲低至2微秒,最大支持數萬節點的并行計算,為大規模科學計算提供高效的智能計算服務。