久久久久久免费影院,欧美精品二区视频观看,亚洲国产成人精品电影

CNP（Cloud Native Application Performance Optimizer），一站式云原生應(yīng)用性能評(píng)測、分析和優(yōu)化的平臺(tái)型產(chǎn)品，致力于提升云上應(yīng)用性能，自動(dòng)化高效評(píng)測靈駿集群訓(xùn)練性能，提供性能優(yōu)化建議。本文為您介紹如何使用CNP進(jìn)行性能評(píng)測。

CNP平臺(tái)入口

登錄靈駿控制臺(tái)。
在左側(cè)導(dǎo)航欄，點(diǎn)擊性能評(píng)測 > CNP性能評(píng)測平臺(tái)。
您可以在CNP平臺(tái)中發(fā)起性能評(píng)測、查看評(píng)測結(jié)果。
在頁面左下角，點(diǎn)擊返回可以快速回到靈駿控制臺(tái)。

發(fā)起評(píng)測

第一步：選擇集群

在歡迎頁點(diǎn)擊開始評(píng)測或在性能評(píng)測頁點(diǎn)擊發(fā)起評(píng)測，進(jìn)入評(píng)測流程第一步：選擇集群。

集群名稱：從您當(dāng)前所擁有的集群中，選擇執(zhí)行評(píng)測時(shí)要使用的一個(gè)集群。
授權(quán)DLC訪問信息：填寫完成后，點(diǎn)擊測試連通性，如果成功訪問則會(huì)返回連通成功，否則會(huì)給出失敗原因，常見的失敗原因如下所示。

失敗原因枚舉	建議操作
連接超時(shí)	開通訪問CNP的白名單后再次嘗試
信息填寫有誤	AccessID、Accesskey、工作空間、Endpoint至少有一個(gè)信息填寫錯(cuò)誤，檢查信息后再次嘗試
獲取STS token失敗（D3001）
創(chuàng)建SLR失敗（D3002）
創(chuàng)建Arms實(shí)例失敗（D3003）
檢查Arms服務(wù)失敗（D3004）	開通ARMS服務(wù)
獲取Arms信息失敗（D3005）
無權(quán)限創(chuàng)建SLR（D3006）	授權(quán)SLR

連通性測試通過后，點(diǎn)擊下一步，進(jìn)入第二步：選擇測試方案。

第二步：選擇測試方案

使用模板

系統(tǒng)默認(rèn)提供兩套測試方案模板，您可根據(jù)實(shí)際業(yè)務(wù)場景選擇其中之一。

方案A：大語言類場景通用方案

方案B：圖像識(shí)別類場景通用方案

包含的測試內(nèi)容

單卡測試：MatMul（矩陣算子）

單機(jī)測試：Bert-base

AI模型測試：LLaMA-7B

單卡測試：MatMul（矩陣算子）

單機(jī)測試：Bert-base

AI模型測試：Swin-Transformer、Stable Diffusion

測試的集群規(guī)模

單卡測試：默認(rèn)使用集群最大規(guī)模

單機(jī)測試：默認(rèn)使用集群最大規(guī)模

AI模型測試：默認(rèn)在8卡、16卡、32卡、64卡、128卡、256卡、512卡上分別創(chuàng)建評(píng)測任務(wù)，根據(jù)您的集群最大規(guī)模進(jìn)行攔截（假設(shè)您的集群最大規(guī)模為100卡，則僅創(chuàng)建8卡、16卡、32卡、64卡的評(píng)測任務(wù)）

單卡測試：默認(rèn)使用集群最大規(guī)模

單機(jī)測試：默認(rèn)使用集群最大規(guī)模

AI模型測試：默認(rèn)在8卡、16卡、32卡、64卡上分別創(chuàng)建評(píng)測任務(wù)，根據(jù)您的集群最大規(guī)模進(jìn)行攔截（假設(shè)您的集群最大規(guī)模為16卡，則僅創(chuàng)建8卡、16卡的評(píng)測任務(wù)）

自定義方案

若系統(tǒng)提供的模板均無法滿足測試需求，則可以選擇自定義測試方案。

單卡測試：節(jié)點(diǎn)數(shù)支持自定義，測試用例默認(rèn)MatMul。
單機(jī)測試：節(jié)點(diǎn)數(shù)支持自定義，測試用例默認(rèn)Bert-base。
AI模型測試：AI模型以及評(píng)測的集群卡數(shù)支持自定義選擇，當(dāng)前已支持的模型包括

說明

LLaMA-7B、Stable-Diffusion、Swin-Transformer、Bert-base、UNet

默認(rèn)參數(shù)配置均采用基準(zhǔn)配置，具體配置可在頁面中查看。

評(píng)測時(shí)間預(yù)估

選擇測試方案后，會(huì)根據(jù)方案中包含的測試內(nèi)容，自動(dòng)估算評(píng)測預(yù)計(jì)花費(fèi)的時(shí)間。注意，此時(shí)間是根據(jù)您第一步所選集群的最大規(guī)模進(jìn)行的估算結(jié)果，若您可用集群未達(dá)到最大規(guī)模，則實(shí)際評(píng)測時(shí)間將比預(yù)估時(shí)間耗時(shí)長。

一鍵開始評(píng)測

完成第一步和第二步后，點(diǎn)擊一鍵開始評(píng)測，即可發(fā)起評(píng)測，等待評(píng)測結(jié)果。

查看評(píng)測進(jìn)度及結(jié)果

創(chuàng)建完成測試計(jì)劃后，在評(píng)測計(jì)劃列表頁可實(shí)時(shí)查看執(zhí)行狀態(tài)和執(zhí)行進(jìn)度。點(diǎn)擊詳情頁，可進(jìn)入評(píng)測計(jì)劃詳情，進(jìn)一步查看每個(gè)環(huán)節(jié)的評(píng)測進(jìn)度。

單卡測試

測試通過

當(dāng)測試的卡未出現(xiàn)疑似問題卡且未出現(xiàn)warning卡時(shí)，判定為單卡測試結(jié)果通過。

說明

疑似問題卡：表示該卡的任務(wù)運(yùn)行失敗，卡疑似有問題；

warning卡：表示該卡的TFLOPS變化有超過5%的迭代數(shù)在正常閾值范圍之外

正常閾值的計(jì)算邏輯：取每個(gè)迭代所有卡的TFLOPS中位數(shù)作為基線，將基線上下3%與4*sigma（4*標(biāo)準(zhǔn)差）進(jìn)行比較，取值較大者作為正常閾值范圍。

測試結(jié)果異常

當(dāng)測試的卡出現(xiàn)疑似問題卡或出現(xiàn)warning卡時(shí)，判定為單卡測試結(jié)果異常。

在評(píng)測任務(wù)列表中，點(diǎn)擊加號(hào)圖標(biāo)可以展開疑似問題卡或warning卡查看明細(xì)，您可將異常節(jié)點(diǎn)上報(bào)給運(yùn)維團(tuán)隊(duì)進(jìn)一步排查。點(diǎn)擊評(píng)測詳情，可查看此任務(wù)的詳細(xì)評(píng)測結(jié)果。

單機(jī)測試進(jìn)度

測試通過

當(dāng)測試的節(jié)點(diǎn)未出現(xiàn)疑似問題節(jié)點(diǎn)且未出現(xiàn)warning節(jié)點(diǎn)時(shí)，判定為單機(jī)測試結(jié)果通過。

說明

疑似問題節(jié)點(diǎn)：表示該節(jié)點(diǎn)下的DLC任務(wù)運(yùn)行失敗，節(jié)點(diǎn)疑似有問題；

warning卡：表示該節(jié)點(diǎn)的吞吐量變化有超過5%的迭代數(shù)在正常閾值范圍之外

正常閾值的計(jì)算邏輯：取每個(gè)迭代所有節(jié)點(diǎn)的吞吐中位數(shù)作為基線，將基線上下3%與4*sigma（4*標(biāo)準(zhǔn)差）進(jìn)行比較，取值較大者作為正常閾值范圍。

測試結(jié)果異常

當(dāng)測試的節(jié)點(diǎn)出現(xiàn)疑似問題節(jié)點(diǎn)或出現(xiàn)warning節(jié)點(diǎn)時(shí)，判定為單機(jī)測試結(jié)果異常。

在評(píng)測任務(wù)列表中，點(diǎn)擊加號(hào)圖標(biāo)可以展開疑似問題節(jié)點(diǎn)或warning節(jié)點(diǎn)查看明細(xì)，將異常節(jié)點(diǎn)上報(bào)給運(yùn)維團(tuán)隊(duì)進(jìn)一步排查。點(diǎn)擊評(píng)測詳情，可查看此任務(wù)的詳細(xì)評(píng)測結(jié)果。

AI模型測試

測試進(jìn)度

待執(zhí)行：若所有任務(wù)都為待執(zhí)行狀態(tài)

已完成：若所有任務(wù)均運(yùn)行成功或運(yùn)行失敗或已停止

已停止：若所有任務(wù)均為已停止?fàn)顟B(tài)

執(zhí)行中：部分任務(wù)已完成、部分任務(wù)待執(zhí)行或執(zhí)行中

測試任務(wù)列表

可查看當(dāng)前測試計(jì)劃在AI模型步驟中包含的所有任務(wù)，運(yùn)行中的任務(wù)若想終止可以點(diǎn)擊停止操作，所有任務(wù)均可刪除。

警告

已刪除和運(yùn)行失敗的任務(wù)數(shù)據(jù)不會(huì)統(tǒng)計(jì)在性能看板dashboard中，請(qǐng)謹(jǐn)慎操作。

查看測試結(jié)果性能看板

操作入口

執(zhí)行狀態(tài)為已完成的測試計(jì)劃，可以查看性能看板，性能看板中包含的數(shù)據(jù)為當(dāng)前測試計(jì)劃中-AI模型測試環(huán)節(jié)運(yùn)行成功的評(píng)測任務(wù)。

看板內(nèi)容

Scalability of Test Model

按模型顯示每個(gè)模型在當(dāng)前測試計(jì)劃中所評(píng)測的卡數(shù)下，吞吐量隨卡數(shù)的變化趨勢，體現(xiàn)模型在集群上的性能擴(kuò)展性（不同模型間結(jié)果不進(jìn)行對(duì)比）。

計(jì)算公式：Scalability Score = log?（模型吞吐 / 模型最小評(píng)測規(guī)格吞吐）

說明

示例：以GPT3-175B模型為例（MOCK數(shù)據(jù)、僅用作說明）

GPUs	吞吐量	Scalability Score	理論Scalability Score
64	10
128	18	log?(18 / 10)	log? 2
256	35	log?(35 / 10)	log? 4
512	69	log?(69 / 10)	log? 8
1024	137	log?(137 / 10)	log? 16

注：Scalability Score越接近理論Scalability Score值，性能拓展性越好

評(píng)測結(jié)果明細(xì)

按模型顯示每個(gè)模型在當(dāng)前測試計(jì)劃中所評(píng)測的卡數(shù)下，throughput指標(biāo)（吞吐量）、MFU指標(biāo)和iteration latency指標(biāo)。縱坐標(biāo)表示卡數(shù)，橫坐標(biāo)表示指標(biāo)值。

上一篇: 一鍵診斷下一篇: CNP操作演示視頻

日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

使用CNP性能評(píng)測