使用CNP性能評(píng)測
CNP(Cloud Native Application Performance Optimizer),一站式云原生應(yīng)用性能評(píng)測、分析和優(yōu)化的平臺(tái)型產(chǎn)品,致力于提升云上應(yīng)用性能,自動(dòng)化高效評(píng)測靈駿集群訓(xùn)練性能,提供性能優(yōu)化建議。本文為您介紹如何使用CNP進(jìn)行性能評(píng)測。
CNP平臺(tái)入口
登錄靈駿控制臺(tái)。
在左側(cè)導(dǎo)航欄,點(diǎn)擊性能評(píng)測 > CNP性能評(píng)測平臺(tái)。
您可以在CNP平臺(tái)中發(fā)起性能評(píng)測、查看評(píng)測結(jié)果。
在頁面左下角,點(diǎn)擊返回可以快速回到靈駿控制臺(tái)。
發(fā)起評(píng)測
第一步:選擇集群
在歡迎頁點(diǎn)擊開始評(píng)測或在性能評(píng)測頁點(diǎn)擊發(fā)起評(píng)測,進(jìn)入評(píng)測流程第一步:選擇集群。
集群名稱:從您當(dāng)前所擁有的集群中,選擇執(zhí)行評(píng)測時(shí)要使用的一個(gè)集群。
授權(quán)DLC訪問信息:填寫完成后,點(diǎn)擊測試連通性,如果成功訪問則會(huì)返回連通成功,否則會(huì)給出失敗原因,常見的失敗原因如下所示。
失敗原因枚舉 | 建議操作 |
連接超時(shí) | 開通訪問CNP的白名單后再次嘗試 |
信息填寫有誤 | AccessID、Accesskey、工作空間、Endpoint至少有一個(gè)信息填寫錯(cuò)誤,檢查信息后再次嘗試 |
獲取STS token失敗(D3001) | |
創(chuàng)建SLR失敗(D3002) | |
創(chuàng)建Arms實(shí)例失敗(D3003) | |
檢查Arms服務(wù)失敗(D3004) | 開通ARMS服務(wù) |
獲取Arms信息失敗(D3005) | |
無權(quán)限創(chuàng)建SLR(D3006) | 授權(quán)SLR |
連通性測試通過后,點(diǎn)擊下一步,進(jìn)入第二步:選擇測試方案。
第二步:選擇測試方案
使用模板
系統(tǒng)默認(rèn)提供兩套測試方案模板,您可根據(jù)實(shí)際業(yè)務(wù)場景選擇其中之一。
方案A:大語言類場景通用方案 | 方案B:圖像識(shí)別類場景通用方案 | |
包含的測試內(nèi)容 | 單卡測試:MatMul(矩陣算子) 單機(jī)測試:Bert-base AI模型測試:LLaMA-7B | 單卡測試:MatMul(矩陣算子) 單機(jī)測試:Bert-base AI模型測試:Swin-Transformer、Stable Diffusion |
測試的集群規(guī)模 | 單卡測試:默認(rèn)使用集群最大規(guī)模 單機(jī)測試:默認(rèn)使用集群最大規(guī)模 AI模型測試:默認(rèn)在8卡、16卡、32卡、64卡、128卡、256卡、512卡上分別創(chuàng)建評(píng)測任務(wù),根據(jù)您的集群最大規(guī)模進(jìn)行攔截(假設(shè)您的集群最大規(guī)模為100卡,則僅創(chuàng)建8卡、16卡、32卡、64卡的評(píng)測任務(wù)) | 單卡測試:默認(rèn)使用集群最大規(guī)模 單機(jī)測試:默認(rèn)使用集群最大規(guī)模 AI模型測試:默認(rèn)在8卡、16卡、32卡、64卡上分別創(chuàng)建評(píng)測任務(wù),根據(jù)您的集群最大規(guī)模進(jìn)行攔截(假設(shè)您的集群最大規(guī)模為16卡,則僅創(chuàng)建8卡、16卡的評(píng)測任務(wù)) |
自定義方案
若系統(tǒng)提供的模板均無法滿足測試需求,則可以選擇自定義測試方案。
單卡測試:節(jié)點(diǎn)數(shù)支持自定義,測試用例默認(rèn)MatMul。
單機(jī)測試:節(jié)點(diǎn)數(shù)支持自定義,測試用例默認(rèn)Bert-base。
AI模型測試:AI模型以及評(píng)測的集群卡數(shù)支持自定義選擇,當(dāng)前已支持的模型包括
LLaMA-7B、Stable-Diffusion、Swin-Transformer、Bert-base、UNet
默認(rèn)參數(shù)配置均采用基準(zhǔn)配置,具體配置可在頁面中查看。
評(píng)測時(shí)間預(yù)估
選擇測試方案后,會(huì)根據(jù)方案中包含的測試內(nèi)容,自動(dòng)估算評(píng)測預(yù)計(jì)花費(fèi)的時(shí)間。注意,此時(shí)間是根據(jù)您第一步所選集群的最大規(guī)模進(jìn)行的估算結(jié)果,若您可用集群未達(dá)到最大規(guī)模,則實(shí)際評(píng)測時(shí)間將比預(yù)估時(shí)間耗時(shí)長。
一鍵開始評(píng)測
完成第一步和第二步后,點(diǎn)擊一鍵開始評(píng)測,即可發(fā)起評(píng)測,等待評(píng)測結(jié)果。
查看評(píng)測進(jìn)度及結(jié)果
創(chuàng)建完成測試計(jì)劃后,在評(píng)測計(jì)劃列表頁可實(shí)時(shí)查看執(zhí)行狀態(tài)和執(zhí)行進(jìn)度。點(diǎn)擊詳情頁,可進(jìn)入評(píng)測計(jì)劃詳情,進(jìn)一步查看每個(gè)環(huán)節(jié)的評(píng)測進(jìn)度。
單卡測試
測試通過
當(dāng)測試的卡未出現(xiàn)疑似問題卡且未出現(xiàn)warning卡時(shí),判定為單卡測試結(jié)果通過。
疑似問題卡:表示該卡的任務(wù)運(yùn)行失敗,卡疑似有問題;
warning卡:表示該卡的TFLOPS變化有超過5%的迭代數(shù)在正常閾值范圍之外
正常閾值的計(jì)算邏輯:取每個(gè)迭代所有卡的TFLOPS中位數(shù)作為基線,將基線上下3%與4*sigma(4*標(biāo)準(zhǔn)差) 進(jìn)行比較,取值較大者作為正常閾值范圍。
測試結(jié)果異常
當(dāng)測試的卡出現(xiàn)疑似問題卡或出現(xiàn)warning卡時(shí),判定為單卡測試結(jié)果異常。
在評(píng)測任務(wù)列表中,點(diǎn)擊加號(hào)圖標(biāo)可以展開疑似問題卡或warning卡查看明細(xì),您可將異常節(jié)點(diǎn)上報(bào)給運(yùn)維團(tuán)隊(duì)進(jìn)一步排查。點(diǎn)擊評(píng)測詳情,可查看此任務(wù)的詳細(xì)評(píng)測結(jié)果。
單機(jī)測試進(jìn)度
測試通過
當(dāng)測試的節(jié)點(diǎn)未出現(xiàn)疑似問題節(jié)點(diǎn)且未出現(xiàn)warning節(jié)點(diǎn)時(shí),判定為單機(jī)測試結(jié)果通過。
疑似問題節(jié)點(diǎn):表示該節(jié)點(diǎn)下的DLC任務(wù)運(yùn)行失敗,節(jié)點(diǎn)疑似有問題;
warning卡:表示該節(jié)點(diǎn)的吞吐量變化有超過5%的迭代數(shù)在正常閾值范圍之外
正常閾值的計(jì)算邏輯:取每個(gè)迭代所有節(jié)點(diǎn)的吞吐中位數(shù)作為基線,將基線上下3%與4*sigma(4*標(biāo)準(zhǔn)差) 進(jìn)行比較,取值較大者作為正常閾值范圍。
測試結(jié)果異常
當(dāng)測試的節(jié)點(diǎn)出現(xiàn)疑似問題節(jié)點(diǎn)或出現(xiàn)warning節(jié)點(diǎn)時(shí),判定為單機(jī)測試結(jié)果異常。
在評(píng)測任務(wù)列表中,點(diǎn)擊加號(hào)圖標(biāo)可以展開疑似問題節(jié)點(diǎn)或warning節(jié)點(diǎn)查看明細(xì),將異常節(jié)點(diǎn)上報(bào)給運(yùn)維團(tuán)隊(duì)進(jìn)一步排查。點(diǎn)擊評(píng)測詳情,可查看此任務(wù)的詳細(xì)評(píng)測結(jié)果。
AI模型測試
測試進(jìn)度
待執(zhí)行:若所有任務(wù)都為待執(zhí)行狀態(tài)
已完成:若所有任務(wù)均運(yùn)行成功或運(yùn)行失敗或已停止
已停止:若所有任務(wù)均為已停止?fàn)顟B(tài)
執(zhí)行中:部分任務(wù)已完成、部分任務(wù)待執(zhí)行或執(zhí)行中
測試任務(wù)列表
可查看當(dāng)前測試計(jì)劃在AI模型步驟中包含的所有任務(wù),運(yùn)行中的任務(wù)若想終止可以點(diǎn)擊停止操作,所有任務(wù)均可刪除。
已刪除和運(yùn)行失敗的任務(wù)數(shù)據(jù)不會(huì)統(tǒng)計(jì)在性能看板dashboard中,請(qǐng)謹(jǐn)慎操作。
查看測試結(jié)果性能看板
操作入口
執(zhí)行狀態(tài)為已完成的測試計(jì)劃,可以查看性能看板,性能看板中包含的數(shù)據(jù)為當(dāng)前測試計(jì)劃中-AI模型測試環(huán)節(jié)運(yùn)行成功的評(píng)測任務(wù)。
看板內(nèi)容
Scalability of Test Model
按模型顯示每個(gè)模型在當(dāng)前測試計(jì)劃中所評(píng)測的卡數(shù)下,吞吐量隨卡數(shù)的變化趨勢,體現(xiàn)模型在集群上的性能擴(kuò)展性(不同模型間結(jié)果不進(jìn)行對(duì)比)。
計(jì)算公式:Scalability Score = log?(模型吞吐 / 模型最小評(píng)測規(guī)格吞吐)
示例:以GPT3-175B模型為例(MOCK數(shù)據(jù)、僅用作說明)
GPUs | 吞吐量 | Scalability Score | 理論Scalability Score |
64 | 10 | ||
128 | 18 | log?(18 / 10) | log? 2 |
256 | 35 | log?(35 / 10) | log? 4 |
512 | 69 | log?(69 / 10) | log? 8 |
1024 | 137 | log?(137 / 10) | log? 16 |
注:Scalability Score越接近理論Scalability Score值,性能拓展性越好
評(píng)測結(jié)果明細(xì)
按模型顯示每個(gè)模型在當(dāng)前測試計(jì)劃中所評(píng)測的卡數(shù)下,throughput指標(biāo)(吞吐量)、MFU指標(biāo)和iteration latency指標(biāo)。縱坐標(biāo)表示卡數(shù),橫坐標(biāo)表示指標(biāo)值。