日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

云原生AI套件概述

云原生AI套件是阿里云容器服務ACK提供的云原生AI技術和產品方案。使用云原生AI套件,您可以充分利用云原生架構和技術,在Kubernetes容器平臺上快速定制化構建AI生產系統,并為AI/ML應用和系統提供全棧優化。本文介紹云原生AI套件產品架構、核心功能、使用場景、使用流程等內容。

視頻介紹

產品架構

云原生AI套件以阿里云容器服務ACK為底座,向下封裝對各類異構資源的統一管理,向上提供標準Kubernetes集群環境和API,以運行各核心組件,實現資源運維管理、AI任務調度和彈性伸縮、數據訪問加速、工作流編排、大數據服務集成、AI作業生命周期管理、AI制品管理、統一運維等服務;再向上針對AI生產流程中的主要環節,支持AI數據集管理,AI模型開發、訓練、評測,以及模型推理服務等。

您可以通過統一的命令行工具、多種語言SDK和控制臺界面,直接使用各核心組件。您也可以進行靈活地擴展、組裝或二次開發,快速定制化構建AI生產系統。通過同樣的組件和工具,云原生AI套件也支持阿里云AI服務、開源AI框架和第三方AI能力的集成。

此外,云原生AI套件支持與阿里云人工智能平臺 PAI無縫集成,提供高效、靈活的一站式AI平臺。一方面,您可以直接使用PAI平臺提供的DSW、DLC、EAS等服務。這些服務借助ACK為AI模型開發、訓練和推理帶來了更好的彈性和效率。另一方面,云原生AI套件支持在ACK集群中一鍵部署輕量化人工智能平臺 PAI平臺,降低AI使用門檻。在Kubernetes應用中,您可以靈活地集成PAI平臺深度優化的算法和引擎,依托其最佳實踐沉淀,極大優化訓練與推理效果。關于人工智能平臺 PAI的更多信息,請參見什么是人工智能平臺 PAI

云原生AI套件的產品架構如下圖所示。

image

核心功能

云原生AI套件基于阿里云容器服務ACK,為AI/ML應用和系統提供了自底向上的全棧支持和優化。云原生AI套件有以下核心功能。

功能項

說明

相關文檔

異構資源統一管理

  • 多種異構資源支持:在容器服務ACK上,云原生AI套件增加了對Nvidia GPU、NPU、FPGA、VPU、RDMA高性能網絡等各種異構資源的支持,進行統一調度和運維管理。

  • 監控運維:針對GPU提供了多維度監控能力,支持可視化查看GPU的分配、使用和健康狀態。

  • 資源利用率優化:提供了GPU共享調度與隔離、GPU拓撲感知調度等多種資源利用率優化能力。

AI任務調度

  • 多種調度策略支持:針對AI分布式訓練等典型批量任務類型,ACK調度器擴展Kubernetes原生調度框架,支持實現多種典型批量調度策略,包括Gang Scheduling(Coscheduling)、FIFO Scheduling、Capacity Scheduling、Fair sharing、Binpack/Spread等。

  • 任務隊列:提供新的優先級任務隊列,支持自定義的任務優先級管理和租戶彈性資源配額控制

  • 工作流編排:支持集成Kubeflow Pipelines或Argo云原生工作流引擎,為復雜的AI任務提供工作流編排服務。

彈性調度

彈性調度分布式深度學習訓練任務:訓練過程中,支持動態伸縮子任務Worker實例數量和節點數量,同時基本維持整體訓練進度和模型精度。在集群資源空閑時,支持增加更多Worker加速訓練;在資源緊張時,釋放部分Worker,以保證訓練的基本運行進度。這種模式可以極大提升集群的總體利用率,避免計算節點故障影響,同時顯著減少用戶提交作業之后等待作業啟動的時間。

基于Kubernetes彈性訓練

AI數據編排與加速

Fluid:提出彈性數據集(Dataset)的概念。對“計算任務使用數據的過程”進行抽象,并創建數據編排與加速系統Fluid,以實現數據集管理、權限控制和訪問加速等能力。ack-fluid組件支持將多個不同類型的存儲服務作為數據源聚合到同一個Dataset中使用,還可以接入不同位置的存儲服務實現混合云環境下的數據管理與訪問加速。此外,ack-fluid組件可擴展兼容多種分布式緩存服務,為每個Dataset配置緩存服務,還提供數據集預熱、緩存容量監控和彈性伸縮等功能,可以大大降低計算任務遠程拉取數據的開銷,提高GPU計算效率。

AI作業生命周期管理

  • Arena:簡化了AI生產流程,覆蓋數據管理、模型開發、訓練及推理服務部署等關鍵環節,同時隱藏了資源調度、環境配置及監控的復雜細節,確保兼容TensorFlow、PyTorch等主流AI技術棧。它還支持多語言SDK,便于定制開發。ack-arena組件在集成Arena管理工具的基礎上進行了操作簡化,使用戶能直接在容器服務控制臺一鍵安裝并快速使用Arena,提升了易用性和部署效率。

  • 可視化運維:提供簡單的運維大盤和開發控制臺,滿足用戶快速瀏覽集群狀態、提交訓練任務的需要。

使用場景

云原生AI套件的核心場景包括持續優化異構資源效率、高效運行AI等異構工作負載。使用場景..png

場景一:持續優化異構資源效率

對云上各種異構計算資源(如CPU、GPU、NPU、VPU、FPGA)、存儲(OSS、NAS、CPFS、HDFS)、網絡(TCP、RDMA)資源,云原生AI套件支持對其進行抽象,統一管理、運維和分配,通過彈性和軟硬協同優化,持續提升資源利用率。

場景二:高效運行AI等異構工作負載

云原生AI套件內置支持TensorFlow、PyTorch、DeepSpeed、Ray、Horovod、Spark、Flink、Kubeflow、KServe、vLLM、Triton inference server等主流開源或者用戶自有的各種計算引擎和運行時,統一運行各類異構工作負載,統一管理作業生命周期,統一調度任務工作流,保證任務規模和性能。云原生AI套件一方面不斷優化運行任務的性能、效率和成本,另一方面持續改善開發運維體驗和工程效率。

用戶角色

云原生AI套件存在兩種用戶角色。

角色類型

說明

運維管理員

負責搭建AI基礎架構和日常管理。更多信息,請參見部署云原生AI套件管理用戶管理彈性配額組管理數據集

算法工程師、數據科學家

使用云原生AI套件管理任務。更多信息,請參見基于Kubernetes部署運行模型訓練作業對MLflow模型倉庫中的模型進行管理模型分析優化

使用流程

基于用戶角色,云原生AI套件的使用流程如下圖所示。

使用流程..png

流程

說明

操作界面

1、準備工作

(運維管理員)

注冊賬號

注冊阿里云賬號并完成實名認證。具體操作,請參見注冊阿里云賬號

阿里云賬號注冊頁面

創建ACK集群

開通ACK服務并創建ACK集群。推薦配置如下。關于配置的詳情說明,請參見創建ACK托管集群

  • 集群類型:ACK Pro版集群、ACK Serverless集群Pro版ACK Edge集群Pro版

  • 集群版本:1.18及以上。

  • 地域:以ACK集群開服的地域為準。

容器服務管理控制臺

配置ACK集群依賴項及創建依賴云資源(可選)

  • 若需安裝配置AI套件控制臺:

    • 需在集群中安裝監控插件和日志服務。

    • 需在訪問控制(RAM)控制臺為集群添加授權策略。詳情請參見授權

    • 若使用私網、公網域名訪問控制臺,需要在集群中安裝Nginx Ingress(私網、公網)。

    • 若控制臺數據存儲方式選擇集群內置MySQL,集群節點需要掛載ESSD類型云盤。

    • 若控制臺數據存儲方式選擇阿里云關系型數據庫RDS(Relational Database Service),需購買RDS實例,并在集群kube-ai命名空間下創建名為kubeai-rds的Secret。

    關于以上配置的具體操作,請參見安裝配置云原生AI控制臺

  • 若需要安裝配置工作流Kubeflow Pipelines:

    • 若工作流數據存儲方式選擇集群內置MinIO,集群節點需要掛載ESSD類型云盤。具體操作,請參見安裝配置工作流

    • 若工作流數據存儲方式選擇阿里云對象存儲OSS(Object Storage Service),需開通并購買OSS,并在集群kube-ai命名空間下創建名為kubeai-oss的Secret。具體操作,請參見開通OSS服務安裝配置工作流

2、系統與環境搭建

(運維管理員)

開通安裝

  1. 打開云原生AI套件開通頁面,開通云原生AI套件服務。

  2. 安裝云原生AI套件和相關組件。具體操作,請參見安裝云原生AI套件。關于安裝過程中涉及的組件介紹,請參見組件介紹及發布記錄

容器服務管理控制臺

管理用戶和配額

  1. 添加配額節點,并限定資源使用額度。

  2. 創建用戶和用戶組,分配資源并關聯配額組。

    具體操作,請參見管理用戶管理用戶組管理彈性配額組

  3. 為新增用戶生成訪問集群的KubeConfig和登錄Token。具體操作,請參見為新增用戶生成KubeConfig和登錄Token

AI運維控制臺、kubectl

準備數據

  1. 創建數據集。

  2. 加速數據集(可選)。更多信息,請參見數據加速Fluid概述

(算法工程師、數據科學家)

云原生AI套件支持命令行工具Arena、Web控制臺和一站式AI平臺等多種方式,幫助算法工程師和數據科學家進行模型開發、訓練、推理和任務管理。

容器服務管理控制臺

3、模型訓練與部署

(算法工程師、數據科學家)

使用云原生AI套件提供的命令行工具Arena或AI套件開發控制臺時,模型訓練與部署如下。

模型開發

  1. 創建并使用Jupyter Notebook。具體操作,請參見創建并使用Jupyter Notebook

  2. 通過Jupyter Notebook開發測試。

  3. 在Jupyter Notebook中提交代碼至Git倉庫。

模型訓練

  1. 通過AI套件開發控制臺或Arena提交訓練任務。

  2. 查看任務日志或Tensorboard數據。

    更多信息,請參見模型訓練

模型管理

  1. 創建模型并關聯訓練任務。

  2. 用云原生AI套件開發控制臺或Arena命令行工具進行模型管理。更多信息,請參見對MLflow模型倉庫中的模型進行管理

模型部署

將模型發布為推理服務。更多信息,請參見AI服務部署

AI開發控制臺、Arena

使用輕量化人工智能平臺 PAI提供的模型開發、訓練、部署等服務。

PAI輕量化控制臺

4、運維觀測

(運維管理員)

運維觀測

查看資源大盤,包括集群、節點、訓練任務、資源配額等監控大盤。更多信息,請參見使用云原生AI監控大盤

AI運維控制臺

配額管理

  • 對配額組及配額組資源進行新增、查詢、更新、刪除等操作。

  • 變更資源類型。

    以上具體操作,請參見管理彈性配額組

用戶管理

新增、查詢、更新、刪除用戶或用戶組。具體操作,請參見管理用戶管理用戶組

數據集管理

彈性任務管理

查看提交的彈性任務及任務詳情。具體參照,請參見查看彈性任務

5、出賬及扣費

(運維管理員)

自2024年06月06日00:00:00起,由付費模式轉變為免費開放。更多信息,請參見云原生AI套件計費說明

阿里云費用與成本

按天出賬

  • 查詢賬單流水。

  • 查詢明細賬單。

  • 查詢用量明細。

  • 查詢產品量價匯總。

    更多信息,請參見云原生AI套件計費說明

產品計費

關于云原生AI套件的計費詳情,請參見云原生AI套件計費說明

更多信息

信息項

說明

快速入門(新手)

通過簡單的實踐,帶您體驗和了解如何使用云原生AI套件進行開發或運維。更多信息,請參見云原生AI套件開發者使用指南云原生AI套件管理員運維指南

最佳實踐

聚焦核心場景,為您提供云原生AI套件沉淀的解決方案。

功能發布記錄

介紹云原生AI套件相關內容的最新動態。

聯系我們

如果您對于云原生AI套件有任何反饋或疑問,請加入釘群(釘群號:33214567)聯系我們。