日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

使用CNP性能評(píng)測

更新時(shí)間: 2024-07-11 10:50:56

CNP(Cloud Native Application Performance Optimizer),一站式云原生應(yīng)用性能評(píng)測、分析和優(yōu)化的平臺(tái)型產(chǎn)品,致力于提升云上應(yīng)用性能,自動(dòng)化高效評(píng)測靈駿集群訓(xùn)練性能,提供性能優(yōu)化建議。本文為您介紹如何使用CNP進(jìn)行性能評(píng)測。

CNP平臺(tái)入口

  1. 登錄靈駿控制臺(tái)

  2. 在左側(cè)導(dǎo)航欄,點(diǎn)擊性能評(píng)測 > CNP性能評(píng)測平臺(tái)。

  3. 您可以在CNP平臺(tái)中發(fā)起性能評(píng)測查看評(píng)測結(jié)果

  4. 在頁面左下角,點(diǎn)擊返回可以快速回到靈駿控制臺(tái)。

image.png

image.png

發(fā)起評(píng)測

第一步:選擇集群

在歡迎頁點(diǎn)擊開始評(píng)測或在性能評(píng)測頁點(diǎn)擊發(fā)起評(píng)測,進(jìn)入評(píng)測流程第一步:選擇集群。

image.png

  • 集群名稱:從您當(dāng)前所擁有的集群中,選擇執(zhí)行評(píng)測時(shí)要使用的一個(gè)集群。

  • 授權(quán)DLC訪問信息:填寫完成后,點(diǎn)擊測試連通性,如果成功訪問則會(huì)返回連通成功,否則會(huì)給出失敗原因,常見的失敗原因如下所示。

失敗原因枚舉

建議操作

連接超時(shí)

開通訪問CNP的白名單后再次嘗試

信息填寫有誤

AccessID、Accesskey、工作空間、Endpoint至少有一個(gè)信息填寫錯(cuò)誤,檢查信息后再次嘗試

獲取STS token失敗(D3001)

創(chuàng)建SLR失敗(D3002)

創(chuàng)建Arms實(shí)例失敗(D3003)

檢查Arms服務(wù)失敗(D3004)

開通ARMS服務(wù)

獲取Arms信息失敗(D3005)

無權(quán)限創(chuàng)建SLR(D3006)

授權(quán)SLR

  • 連通性測試通過后,點(diǎn)擊下一步,進(jìn)入第二步:選擇測試方案。

第二步:選擇測試方案

使用模板

系統(tǒng)默認(rèn)提供兩套測試方案模板,您可根據(jù)實(shí)際業(yè)務(wù)場景選擇其中之一。

image.png

方案A:大語言類場景通用方案

方案B:圖像識(shí)別類場景通用方案

包含的測試內(nèi)容

單卡測試:MatMul(矩陣算子)

單機(jī)測試:Bert-base

AI模型測試:LLaMA-7B

單卡測試:MatMul(矩陣算子)

單機(jī)測試:Bert-base

AI模型測試:Swin-Transformer、Stable Diffusion

測試的集群規(guī)模

單卡測試:默認(rèn)使用集群最大規(guī)模

單機(jī)測試:默認(rèn)使用集群最大規(guī)模

AI模型測試:默認(rèn)在8卡、16卡、32卡、64卡、128卡、256卡、512卡上分別創(chuàng)建評(píng)測任務(wù),根據(jù)您的集群最大規(guī)模進(jìn)行攔截(假設(shè)您的集群最大規(guī)模為100卡,則僅創(chuàng)建8卡、16卡、32卡、64卡的評(píng)測任務(wù))

單卡測試:默認(rèn)使用集群最大規(guī)模

單機(jī)測試:默認(rèn)使用集群最大規(guī)模

AI模型測試:默認(rèn)在8卡、16卡、32卡、64卡上分別創(chuàng)建評(píng)測任務(wù),根據(jù)您的集群最大規(guī)模進(jìn)行攔截(假設(shè)您的集群最大規(guī)模為16卡,則僅創(chuàng)建8卡、16卡的評(píng)測任務(wù))

自定義方案

若系統(tǒng)提供的模板均無法滿足測試需求,則可以選擇自定義測試方案。

  1. 單卡測試:節(jié)點(diǎn)數(shù)支持自定義,測試用例默認(rèn)MatMul。

  2. 單機(jī)測試:節(jié)點(diǎn)數(shù)支持自定義,測試用例默認(rèn)Bert-base。

  3. AI模型測試:AI模型以及評(píng)測的集群卡數(shù)支持自定義選擇,當(dāng)前已支持的模型包括

說明

LLaMA-7B、Stable-Diffusion、Swin-Transformer、Bert-base、UNet

默認(rèn)參數(shù)配置均采用基準(zhǔn)配置,具體配置可在頁面中查看。

image.png

評(píng)測時(shí)間預(yù)估

選擇測試方案后,會(huì)根據(jù)方案中包含的測試內(nèi)容,自動(dòng)估算評(píng)測預(yù)計(jì)花費(fèi)的時(shí)間。注意,此時(shí)間是根據(jù)您第一步所選集群的最大規(guī)模進(jìn)行的估算結(jié)果,若您可用集群未達(dá)到最大規(guī)模,則實(shí)際評(píng)測時(shí)間將比預(yù)估時(shí)間耗時(shí)長。

一鍵開始評(píng)測

完成第一步和第二步后,點(diǎn)擊一鍵開始評(píng)測,即可發(fā)起評(píng)測,等待評(píng)測結(jié)果。

查看評(píng)測進(jìn)度及結(jié)果

創(chuàng)建完成測試計(jì)劃后,在評(píng)測計(jì)劃列表頁可實(shí)時(shí)查看執(zhí)行狀態(tài)和執(zhí)行進(jìn)度。點(diǎn)擊詳情頁,可進(jìn)入評(píng)測計(jì)劃詳情,進(jìn)一步查看每個(gè)環(huán)節(jié)的評(píng)測進(jìn)度。

image.png

單卡測試

  • 測試通過

當(dāng)測試的卡未出現(xiàn)疑似問題卡且未出現(xiàn)warning卡時(shí),判定為單卡測試結(jié)果通過

說明

疑似問題卡:表示該卡的任務(wù)運(yùn)行失敗,卡疑似有問題;

warning卡:表示該卡的TFLOPS變化有超過5%的迭代數(shù)在正常閾值范圍之外

正常閾值的計(jì)算邏輯:取每個(gè)迭代所有卡的TFLOPS中位數(shù)作為基線,將基線上下3%與4*sigma(4*標(biāo)準(zhǔn)差) 進(jìn)行比較,取值較大者作為正常閾值范圍。

image.png

  • 測試結(jié)果異常

當(dāng)測試的卡出現(xiàn)疑似問題卡或出現(xiàn)warning卡時(shí),判定為單卡測試結(jié)果異常

在評(píng)測任務(wù)列表中,點(diǎn)擊加號(hào)圖標(biāo)可以展開疑似問題卡或warning卡查看明細(xì),您可將異常節(jié)點(diǎn)上報(bào)給運(yùn)維團(tuán)隊(duì)進(jìn)一步排查。點(diǎn)擊評(píng)測詳情,可查看此任務(wù)的詳細(xì)評(píng)測結(jié)果。

image.png

單機(jī)測試進(jìn)度

  • 測試通過

當(dāng)測試的節(jié)點(diǎn)未出現(xiàn)疑似問題節(jié)點(diǎn)且未出現(xiàn)warning節(jié)點(diǎn)時(shí),判定為單機(jī)測試結(jié)果通過

說明

疑似問題節(jié)點(diǎn):表示該節(jié)點(diǎn)下的DLC任務(wù)運(yùn)行失敗,節(jié)點(diǎn)疑似有問題;

warning卡:表示該節(jié)點(diǎn)的吞吐量變化有超過5%的迭代數(shù)在正常閾值范圍之外

正常閾值的計(jì)算邏輯:取每個(gè)迭代所有節(jié)點(diǎn)的吞吐中位數(shù)作為基線,將基線上下3%與4*sigma(4*標(biāo)準(zhǔn)差) 進(jìn)行比較,取值較大者作為正常閾值范圍。

image.png

  • 測試結(jié)果異常

當(dāng)測試的節(jié)點(diǎn)出現(xiàn)疑似問題節(jié)點(diǎn)或出現(xiàn)warning節(jié)點(diǎn)時(shí),判定為單機(jī)測試結(jié)果異常。

在評(píng)測任務(wù)列表中,點(diǎn)擊加號(hào)圖標(biāo)可以展開疑似問題節(jié)點(diǎn)或warning節(jié)點(diǎn)查看明細(xì),將異常節(jié)點(diǎn)上報(bào)給運(yùn)維團(tuán)隊(duì)進(jìn)一步排查。點(diǎn)擊評(píng)測詳情,可查看此任務(wù)的詳細(xì)評(píng)測結(jié)果。

image.png

AI模型測試

  • 測試進(jìn)度

待執(zhí)行:若所有任務(wù)都為待執(zhí)行狀態(tài)

已完成:若所有任務(wù)均運(yùn)行成功或運(yùn)行失敗或已停止

已停止:若所有任務(wù)均為已停止?fàn)顟B(tài)

執(zhí)行中:部分任務(wù)已完成、部分任務(wù)待執(zhí)行或執(zhí)行中

image.png

  • 測試任務(wù)列表

可查看當(dāng)前測試計(jì)劃在AI模型步驟中包含的所有任務(wù),運(yùn)行中的任務(wù)若想終止可以點(diǎn)擊停止操作,所有任務(wù)均可刪除。

警告

已刪除和運(yùn)行失敗的任務(wù)數(shù)據(jù)不會(huì)統(tǒng)計(jì)在性能看板dashboard中,請(qǐng)謹(jǐn)慎操作。

查看測試結(jié)果性能看板

操作入口

執(zhí)行狀態(tài)為已完成的測試計(jì)劃,可以查看性能看板,性能看板中包含的數(shù)據(jù)為當(dāng)前測試計(jì)劃中-AI模型測試環(huán)節(jié)運(yùn)行成功的評(píng)測任務(wù)。

image.png

看板內(nèi)容

Scalability of Test Model

image.png

按模型顯示每個(gè)模型在當(dāng)前測試計(jì)劃中所評(píng)測的卡數(shù)下,吞吐量隨卡數(shù)的變化趨勢,體現(xiàn)模型在集群上的性能擴(kuò)展性(不同模型間結(jié)果不進(jìn)行對(duì)比)。

計(jì)算公式:Scalability Score = log?(模型吞吐 / 模型最小評(píng)測規(guī)格吞吐)

說明

示例:以GPT3-175B模型為例(MOCK數(shù)據(jù)、僅用作說明)

GPUs

吞吐量

Scalability Score

理論Scalability Score

64

10

128

18

log?(18 / 10)

log? 2

256

35

log?(35 / 10)

log? 4

512

69

log?(69 / 10)

log? 8

1024

137

log?(137 / 10)

log? 16

注:Scalability Score越接近理論Scalability Score值,性能拓展性越好

評(píng)測結(jié)果明細(xì)

按模型顯示每個(gè)模型在當(dāng)前測試計(jì)劃中所評(píng)測的卡數(shù)下,throughput指標(biāo)(吞吐量)、MFU指標(biāo)和iteration latency指標(biāo)。縱坐標(biāo)表示卡數(shù),橫坐標(biāo)表示指標(biāo)值。

image.png

上一篇: 一鍵診斷 下一篇: CNP操作演示視頻
阿里云首頁 人工智能平臺(tái) PAI 相關(guān)技術(shù)圈