功能特性
靈駿滿(mǎn)足AI、HPC等計(jì)算密集場(chǎng)景需要的高性能算力,可實(shí)現(xiàn)高性能、大規(guī)模的池化算力,滿(mǎn)足自動(dòng)駕駛、科研、金融、生物制藥等多行業(yè)的異構(gòu)算力需求。本文為您介紹靈駿的功能特性。
高速RDMA網(wǎng)絡(luò)架構(gòu)
阿里巴巴2016年開(kāi)始投入專(zhuān)項(xiàng)研究RDMA(Remote Direct Memory Access),以改造RDMA,提高傳輸性能。目前已建成大規(guī)模數(shù)據(jù)中心內(nèi)的“高速網(wǎng)”,時(shí)延降低90%,支撐了高性能存儲(chǔ)、AI計(jì)算等阿里云業(yè)務(wù)和阿里巴巴集團(tuán)內(nèi)部業(yè)務(wù)。
同時(shí),通過(guò)大規(guī)模RDMA網(wǎng)絡(luò)部署實(shí)踐,阿里云自主研發(fā)了基于端網(wǎng)協(xié)同的RDMA高性能網(wǎng)絡(luò)協(xié)議和HPCC擁塞控制算法,并通過(guò)智能網(wǎng)卡實(shí)現(xiàn)了協(xié)議硬件卸載,降低了端到端網(wǎng)絡(luò)延時(shí),提升了網(wǎng)絡(luò)IO吞吐能力,并有效規(guī)避和弱化了網(wǎng)絡(luò)故障、網(wǎng)絡(luò)黑洞等傳統(tǒng)網(wǎng)絡(luò)異常給上層應(yīng)用帶來(lái)的性能損失。
高性能集合通信庫(kù)ACCL
靈駿支持高性能集合通信庫(kù)ACCL(Alibaba Collective Communication Library),結(jié)合硬件(例如:網(wǎng)絡(luò)交換機(jī)),對(duì)萬(wàn)卡規(guī)模的AI集群提供無(wú)擁塞、高性能的集群通訊能力。
在AI集群層面,通訊的碰撞是計(jì)算延遲的主要來(lái)源。除了架設(shè)集群通信的“高速公路”(即RDMA高速網(wǎng))外,還需要進(jìn)行合理的通訊調(diào)度,避免“堵車(chē)”。阿里云通過(guò)通信庫(kù)ACCL實(shí)現(xiàn)了GPU和網(wǎng)卡的智能匹配、節(jié)點(diǎn)內(nèi)外物理拓?fù)渥詣?dòng)識(shí)別及拓?fù)涓兄臒o(wú)擁塞通信算法,徹底消除網(wǎng)絡(luò)擁塞,提升網(wǎng)絡(luò)通信效率,提高分布式訓(xùn)練系統(tǒng)的擴(kuò)展性。在萬(wàn)卡規(guī)模下,可達(dá)80%以上的線性集群能力。在百卡規(guī)模下,有效(計(jì)算)性能可達(dá)95%以上,可滿(mǎn)足80%以上的業(yè)務(wù)場(chǎng)景需求。
高性能數(shù)據(jù)主動(dòng)加載加速軟件KSpeed
靈駿基于高性能網(wǎng)絡(luò)RDMA和高性能通信ACCL,研發(fā)高性能數(shù)據(jù)主動(dòng)加載加速軟件KSpeed,進(jìn)行智能數(shù)據(jù)IO優(yōu)化。
計(jì)算存儲(chǔ)分離架構(gòu)廣泛存在于AI、HPC、大數(shù)據(jù)業(yè)務(wù)場(chǎng)景中,但大量訓(xùn)練數(shù)據(jù)的加載容易形成效率瓶頸。阿里云通過(guò)高性能數(shù)據(jù)主動(dòng)加載加速軟件KSpeed,實(shí)現(xiàn)數(shù)據(jù)IO數(shù)量級(jí)性能提升。
例如:在部分場(chǎng)景中,數(shù)據(jù)加載耗時(shí)可占據(jù)訓(xùn)練整體時(shí)長(zhǎng)60%以上,KSpeed能夠?qū)崿F(xiàn)內(nèi)存級(jí)數(shù)據(jù)主動(dòng)預(yù)加載,數(shù)據(jù)加載時(shí)長(zhǎng)縮減到10%以?xún)?nèi),相當(dāng)于把單位時(shí)間內(nèi)的計(jì)算性能提升了1倍。
GPU容器虛擬化方案eGPU
針對(duì)AI作業(yè)規(guī)模龐大、GPU硬件資源昂貴、集群GPU利用率低等業(yè)務(wù)場(chǎng)景實(shí)際遇到的問(wèn)題,靈駿支持GPU虛擬化技術(shù)eGPU,可有效提升AI集群的GPU利用率,具體如下:
支持顯存、算力雙維度自由切分。
支持多個(gè)規(guī)格。
支持動(dòng)態(tài)創(chuàng)建、銷(xiāo)毀。
支持熱升級(jí)。
支持用戶(hù)態(tài)技術(shù),保證更高可靠性。