日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

什么是集群極速部署工具FastGPU

FastGPU是一套阿里云推出的人工智能計算極速部署工具。您可以通過其提供的便捷的接口和自動工具,實現人工智能訓練和推理任務在阿里云IaaS資源上的快速部署。

FastGPU介紹

FastGPU作為銜接您的線下人工智能算法和線上阿里云海量GPU計算資源的關鍵一環,方便您將人工智能計算任務構建在阿里云的IaaS資源上。使用FastGPU構建人工智能計算任務時,您無需關心IaaS層的計算、存儲、網絡等資源部署操作,即可達到簡單適配、一鍵部署、隨處運行的效果。

FastGPU提供以下兩套組件:

  • 運行時組件ncluster:提供便捷的接口將線下的人工智能訓練和推理腳本快速部署在阿里云的IaaS資源上,更多運行時組件使用說明請參見Python SDK使用說明

  • 命令行組件ecluster:提供便捷的命令行工具,用于管理阿里云上人工智能計算任務的運行狀態和集群的生命周期,更多命令行組件使用說明請參見命令行使用說明

組成模塊

FastGPU的組成模塊如下圖所示。fastgpu-arc

  • 底層:調用阿里云的API來實現阿里云云上資源的交互層。

  • 中間層:在人工智能任務運行時,對涉及的IaaS層資源所需的對象進行封裝后形成的阿里云后端層。

  • 上層:對人工智能任務與相應的阿里云實例資源進行映射,適配后形成的用戶控制層。

    您只需調用用戶控制層,即可快速構建阿里云上的IaaS級人工智能計算任務。

典型流程

使用FastGPU完成AI計算任務的典型流程如下圖所示。

fastgpu

例如,使用FastGPU完成一項訓練任務:

  1. 在用戶起始狀態階段:

    將訓練數據集上傳到對象存儲中,并創建一臺ECS實例(作為開發主機)存放訓練代碼。

  2. 在FastGPU即刻構建計算任務階段:

    1. 在開發主機上通過FastGPU一鍵部署集群,創建出任務所需的資源,包括計算資源(CPU、GPU)、存儲資源(云盤、NAS文件系統等)、交互式資源(Tmux、Tensorboard)等。

    2. 自動啟動分布式訓練任務,在訓練過程中支持通過交互式資源實時查看訓練情況。

    3. 分布式訓練任務完成后自動釋放資源。

  3. 在用戶完成狀態階段:

    將訓練得到的模型和log文件存放在開發主機的云盤或對象存儲OSS上,供您查看任務結果。