日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

分布式深度學習訓練加速(EPL)

EPL(Easy Parallel Library)是高效易用的分布式模型訓練框架,深度集成多種訓練優化技術,提供了簡單易用的API實現各種并行化策略。您可以使用EPL實現低成本、高性能分布式模型訓練。本文為您介紹如何在DLC中使用EPL高效地進行分布式TensorFlow訓練。

前提條件

在開始執行操作之前,請確認您已經完成以下準備工作:

  • 已為DLC服務關聯角色授權,詳情請參見云產品依賴與授權:DLC

  • 已安裝鏡像環境:官方鏡像或社區鏡像(NVIDIA TensorFlow 1.15TensorFlow-GPU 1.15)。

    說明

    如果您使用的是DLC平臺,建議鏡像選擇社區鏡像:tensorflow-training:1.15-gpu-py36-cu100-ubuntu18.04。您可以在DLC中提交執行命令安裝EPL,無需單獨安裝。

步驟一:代碼配置

您可以使用EPL編寫TensorFlow分布式訓練代碼,詳情請參見快速開始

您也可以使用EPL代碼示例快速開始分布式TensorFlow訓練,本方案使用ResNet-50訓練數據配置代碼集,您可以使用該代碼集提交TensorFlow訓練任務,且每次進行模型訓練時會自動克隆最新的版本,關于如何配置代碼集,具體操作步驟如下所示。

  1. 進入代碼配置頁面。

    1. 登錄PAI控制臺

    2. 在左側導航欄單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應工作空間內。

    3. 在工作空間頁面的左側導航欄選擇AI資產管理 > 代碼配置,進入代碼配置頁面。

  2. 代碼配置頁面,單擊新建代碼配置

  3. 新建代碼配置頁面配置參數,并單擊提交

    其中Git地址https://github.com/alibaba/EasyParallelLibrary.git代碼分支main。其他參數配置詳情請參見代碼配置

步驟二:啟動訓練任務

  1. 進入新建任務頁面。

    1. 登錄PAI控制臺,在頁面上方選擇目標地域,并在右側選擇目標工作空間,然后單擊進入DLC

    2. 在分布式訓練(DLC)頁面,單擊新建任務

  2. 新建任務頁面,配置基本信息任務資源配置,其他參數配置詳情,請參見創建訓練任務。然后單擊提交

    • 基本信息參數配置如下。

      參數

      使用示例值

      資源配額

      公共資源組。

      任務名稱

      自定義訓練任務名稱。

      節點鏡像

      選擇社區鏡像>tensorflow-training:1.15-gpu-py36-cu100-ubuntu18.04

      框架

      TensorFlow。

      代碼配置

      在線配置下拉選項中選擇在步驟一中配置的代碼集。

      代碼分支

      main。

      執行命令

      apt update
      apt install libnccl2 libnccl-dev
      cd /root/code/EasyParallelLibrary/
      pip install .
      cd examples/resnet
      bash scripts/train_dp.sh
    • 任務資源配置參數配置如下所示。

      參數

      使用示例值

      節點數量

      配置為2。您可以根據實際訓練需求配置該參數。

      節點配置

      GPU實例頁簽選擇ecs.gn6v-c8g1.2xlarge

      最長運行時長

      2小時。

  3. 在分布式訓練任務列表中,單擊目標任務名稱,進入任務詳情頁面。在該頁面中查看該任務的執行情況。具體操作,請參見查看訓練詳情

相關文檔

  • 如果您想了解關于EPL的更多內容,請參見EPL

  • 更多關于DLC產品的內容介紹,請參見分布式訓練(DLC)