本文展示了AIACC-AGSpeed(簡稱AGSpeed)的部分性能數據,相比較通過PyTorch原生Eager模式訓練模型后的性能數據,使用AGSpeed訓練多個模型時,性能具有明顯提升。
背景信息
本文通過測試不同場景下的模型,展示AGSpeed的不同性能提升效果。如果您想了解更多模型的性能測試效果,請聯系我們。
性能數據
本示例數據以hf_GPT2、hf_Bert、resnet50,timm_efficientnet等50多個模型為例,通過FP32精度和AMP混合精度兩種場景進行訓練,不同場景下各模型訓練后的性能數據如下所示:
FP32精度訓練場景
AMP混合精度場景
上述性能數據圖中,橫坐標和縱坐標的含義如下所示:
橫坐標:代表所有參加訓練的模型。
縱坐標:代表相比PyTorch原生Eager模式,模型使用AGSpeed訓練后的加速比。加速比大于1.0表示性能提升有所提升。
性能效果
相比PyTorch原生的Eager模式,通過AGSpeed訓練模型后,性能提升率如下所示。以吞吐量作為性能指標來展示AGSpeed的性能效果,性能提升率=(吞吐量(AGSpeed)-吞吐量(Eager))/吞吐量(Eager)。
下圖中的數據僅展示部分典型模型,如果您想了解更多模型的性能提升效果,請聯系我們。
模型 | 精度 | 吞吐量(Eager) | 吞吐量(AGSpeed) | 性能提升率 |
resnet50 v1.5 | TF32 | 8195 images/s | 9222 images/s | 提升12.5% |
AMP | 17160 images/s | 17592 images/s | 提升2.5% | |
SSD | TF32 | 2282 images/s | 2427 images/s | 提升9.9% |
AMP | 3312 images/s | 3679 images/s | 提升11.1% | |
BERT | TF32 | 2464 sequences/s | 2589 sequences/s | 提升5.1% |
AMP | 4689 sequences/s | 5031 sequences/s | 提升7.3% | |
nnUnet3D | TF32 | 89.21 images/s | 98.42 images/s | 提升6.8% |
AMP | 151.27 images/s | 161.52 images/s | 提升6.8% |