亚洲欧美国产vr在线观,伊人久久综合线亚洲2019,亚洲AV日韩AV天堂影片精品

Deepytorch Training是阿里云自研的AI訓練加速器，為傳統AI和生成式AI場景提供訓練加速功能。本文主要介紹Deepytorch Training在訓練加速上的概念、優勢及特性等。

Deepytorch Training介紹

Deepytorch Training面向傳統AI和生成式AI場景，提供了訓練加速能力。通過整合分布式通信和計算圖編譯的性能優化，在保障精度的前提下實現端到端訓練性能的顯著提升，為您帶來更低的成本和更敏捷的迭代。同時Deepytorch Training具有無感適配和充分兼容開源生態等特點，使AI研發人員可以輕松將該加速器集成到業務代碼中，享受訓練加速效果。

產品優勢

訓練性能顯著提升

Deepytorch Training通過整合分布式通信和計算圖編譯的性能特點，可以實現端到端訓練性能的顯著提升，使得模型訓練迭代速度更快，不僅減少了資源的使用成本，還縮短了迭代的時間成本，為您帶來低成本體驗。

示例：以生成式AI和傳統AI兩種場景為例，展示模型端到端訓練性能提升效果。其中，該示例選擇的實例規格以ecs.ebmgn7vx.32xlarge為例。

說明

相比原生PyTorch，使用Deepytorch Training工具訓練模型，能顯著提升端到端的訓練性能。

場景	模型名稱	節點數 x GPU數	配置信息	訓練性能提升率
生成式AI	Llama2-13B	2 x 8	ZeRO stage 2 micro batch size=4 finetune alpaca_gpt4_en	提升48%
	Qwen2-14B	2 x 8	ZeRO stage 2 micro batch size=4 finetune alpaca_gpt4_en	提升21%
	LLaMa-65B	2 x 8	ZeRO stage 3 micro batch size=8 activation recomputing params offload	提升30%
	stable diffusion v2.1	1 x 1	dreambooth batch size=5 fp16	提升22%
傳統AI	ResNet50	2 x 8	micro batch size=512 mixed precision=amp	提升89%
傳統AI	BERT	2 x 8	micro batch size=32 mixed precision=amp	提升42%

易用性好
- Deepytorch Training具有充分兼容開源生態等特點，兼容PyTorch主流版本，支持主流分布式訓練框架。例如DeepSpeed、PyTorch FSDP或Megatron-LM等。
- 使用Deepytorch Training時，僅需在Python訓練代碼開頭添加一行適配代碼即可。
```
import deepytorch
```

特性說明

Deepytorch Training在AI訓練的通信和計算方面具有顯著的加速效果，具體說明如下：

通信側優化特性

單機優化
單機內的優化主要針對不同硬件拓撲機型的通信優化。以PCIe互連的機型和NVLink互連的機型為例，具體說明如下：
- PCIe互連拓撲優化：該機型的多GPU卡之間共享PCIe帶寬，通信容易受限于物理帶寬。針對PCIe互連拓撲的通信優化，可以采用基于流水線的PS（Parameters Server：參數服務器）模式梯度規約算法CPU-Reduce來降低通信耗時，該算法按照GPU到CPU再到GPU的順序構建流水線，將梯度規約的計算分散到多個設備上運行，來減少通信瓶頸。
  例如，在通信數據量超過4 MB的場景下，PCIe互連拓撲優化方案相比NCCL原生在性能上提升了20%以上。
- NVLink互連拓撲優化：NCCL默認使用的Binary-Tree算法在V100機型上并不能充分發揮多通道性能。針對NVLink互連拓撲的通信優化，可以通過擴展單機內部不同的N-Trees拓撲結構組合，實現拓撲調優并充分發揮多通道性能。
  例如，在通信數據量超過128 MB的場景下，NVLink互連拓撲優化方案相比NCCL原生在性能上提升了20%以上。
多機優化
多機優化體現在通信算子編譯優化、TCP多流優化、多機CPU-Reduce優化三個方面，具體說明如下：
- 通信算子編譯優化：針對阿里云上不同機型，以及網卡與GPU的不同拓撲連接等特點，相比較基于全局拓撲結構實現的Allreduce、Allgather或Reduce-scatter等算法，Hybrid+算法支持單機和多機的分層通信，充分利用單機內部高速帶寬的同時降低了多機之間的通信量，通信算子編譯優化方案相比NCCL原生在性能上提升了50%以上。
- 通信多流優化：通常情況下，因網絡帶寬沒有被充分利用，會導致上層集合通信算法的跨機性能無法達到最優。而采用基于TCP/IP的多流功能，提升分布式訓練的并發通信能力，可以實現多機訓練性能提升5%~20%。
- 多機CPU-Reduce：該優化繼承了單機內CPU-Reduce高效的異步流水線，并將跨機Socket通信也設計為流水線形態，實現多機通信全過程流水化，有效減少通信延遲，提高整體訓練性能。
  例如，在通信量較大的Transformer-based模型的多機訓練場景下，多機CPU-Reduce優化方案可將端到端性能進一步提升20%以上。

計算側優化特性

Deepytorch Training在計算側對多種AI場景均有顯著優化效果，其特性說明如下：

針對LLM微調訓練非定長序列場景，能夠有效減少模型計算量，在多種ZeRO配置下無感地提升訓練性能。
針對Stable Diffusion訓練場景，提供定制化的性能優化方案，能夠在多種訓練配置下無感地提升訓練性能。
針對PyTorch的編譯模塊，進行了性能和魯棒性方面的增強，可以自動選擇最優策略，對傳統AI模型訓練加速有顯著提升。

安裝和使用

使用Deepytorch Training工具對模型進行訓練優化，能夠顯著提升訓練性能。其具體使用方式，請參見安裝和使用Deepytorch Training。

日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

什么是Deepytorch Training（訓練加速）