日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

AIACC-AGSpeed性能數據

本文展示了AIACC-AGSpeed(簡稱AGSpeed)的部分性能數據,相比較通過PyTorch原生Eager模式訓練模型后的性能數據,使用AGSpeed訓練多個模型時,性能具有明顯提升。

背景信息

本文通過測試不同場景下的模型,展示AGSpeed的不同性能提升效果。如果您想了解更多模型的性能測試效果,請聯系我們

性能數據

本示例數據以hf_GPT2、hf_Bert、resnet50,timm_efficientnet等50多個模型為例,通過FP32精度和AMP混合精度兩種場景進行訓練,不同場景下各模型訓練后的性能數據如下所示:

  • FP32精度訓練場景FP32

  • AMP混合精度場景AMP

上述性能數據圖中,橫坐標和縱坐標的含義如下所示:

  • 橫坐標:代表所有參加訓練的模型。

  • 縱坐標:代表相比PyTorch原生Eager模式,模型使用AGSpeed訓練后的加速比。加速比大于1.0表示性能提升有所提升。

性能效果

相比PyTorch原生的Eager模式,通過AGSpeed訓練模型后,性能提升率如下所示。以吞吐量作為性能指標來展示AGSpeed的性能效果,性能提升率=(吞吐量(AGSpeed)-吞吐量(Eager))/吞吐量(Eager)。

說明

下圖中的數據僅展示部分典型模型,如果您想了解更多模型的性能提升效果,請聯系我們

模型

精度

吞吐量(Eager)

吞吐量(AGSpeed)

性能提升率

resnet50 v1.5

TF32

8195 images/s

9222 images/s

提升12.5%

AMP

17160 images/s

17592 images/s

提升2.5%

SSD

TF32

2282 images/s

2427 images/s

提升9.9%

AMP

3312 images/s

3679 images/s

提升11.1%

BERT

TF32

2464 sequences/s

2589 sequences/s

提升5.1%

AMP

4689 sequences/s

5031 sequences/s

提升7.3%

nnUnet3D

TF32

89.21 images/s

98.42 images/s

提升6.8%

AMP

151.27 images/s

161.52 images/s

提升6.8%