功能特性
人工智能平臺 PAI
功能集 |
功能 |
功能描述 |
參考文檔 |
AI計算資源管理 |
靈駿智算資源 |
靈駿智算資源是阿里云PAI提供的大規(guī)模高密度計算資源服務,為您提供高性能AI訓練、高性能計算所需的異構計算算力服務,可用于PAI的訓練任務。 |
靈駿智算資源概述 |
通用訓練資源 |
通用訓練資源是基于阿里巴巴容器服務ACK(Alibaba Cloud Container Service for Kubernetes)的深度學習訓練資源,為您提供靈活、穩(wěn)定、易用和高性能的深度學習訓練環(huán)境。 |
通用訓練資源概述 | |
其他大數(shù)據(jù)計算資源 |
展示當前用戶擁有的MaxCompute、Flink等大數(shù)據(jù)計算資源。 |
AI計算資源組概述 | |
AI工作空間 |
工作空間計算資源管理 |
工作空間管理員可將當前賬號擁有的AI計算資源關聯(lián)至當前工作空間,供工作空間成員做開發(fā)訓練使用。 |
管理工作空間計算資源 |
工作空間消息通知 |
PAI工作空間為您提供了消息通知機制,您可以創(chuàng)建消息通知規(guī)則,實現(xiàn)對DLC任務或PAIFlow(PAI-Designer)任務狀態(tài)的跟蹤和監(jiān)控,或是基于AI資產(chǎn)管理-模型版本準入狀態(tài)變化觸發(fā)下游事件。 |
創(chuàng)建消息通知規(guī)則 | |
工作空間存儲及SLS轉發(fā)設置 |
工作空間管理員可以配置當前工作空間下開發(fā)訓練的默認存儲路徑,或臨時表的存儲生命周期。 |
設置工作空間存儲路徑 | |
成員及權限管理 |
基于角色的訪問控制,提供標注管理員、算法開發(fā)、算法運維等AI全鏈路多角色支持用戶高效協(xié)同。工作空間內AI資產(chǎn)支持private/public屬性,且面向不同角色提供不同訪問權限。 |
管理成員 | |
快速開始QuickStart |
預置模型庫ModelHub |
PAI快速開始預置了多種來源于ModelScope、Huggingface等知名模型社區(qū)的預訓練模型。 |
模型部署及訓練 |
預置模型訓練 |
您可以基于預訓練模型快速上手并使用PAI的訓練功能。 |
模型部署及訓練 | |
預置模型部署 |
您可以基于預訓練模型快速上手并使用PAI的部署功能。 |
模型部署及訓練 | |
智能標注iTag |
標注平臺服務 |
支持圖像、文本、視頻、語音、PDF、多模態(tài)、自定義等全方位的標注能力和場景。預置OCR、ASR等預標注工具,大幅提升標注員的效率和準確。 |
創(chuàng)建標注任務 |
標注人力服務 |
支持人力標注服務,專業(yè)培訓上崗,全托管的項目管理,極大降低標注人力成本。 |
處理標注任務 | |
標注平臺被集成 |
提供豐富的API、微前端、iframe容器,客戶可自定義將標注能力集成到第三方的AI開發(fā)平臺。 |
API概覽 | |
可視化建模Designer |
工作流構建 |
Designer通過工作流的方式來實現(xiàn)建模與模型調試,用戶可根據(jù)建模需求在工作流中通過拖拉拽的方式排布不同組件,像搭積木一樣構建AI開發(fā)流程。 |
工作流概述 |
工作流導入/導出 |
支持將構建好的工作流導出為JSON文件。用戶也可以將自己或他人導出的JSON格式的工作流文件導入到工作空間內,來創(chuàng)建新的工作流。 |
導出與導入工作流 | |
周期性調度工作流 |
工作流可以離線部署在DataWorks,通過周期調用的方式使用。 |
使用DataWorks離線調度Designer工作流 | |
預置工作流模板 |
內置豐富案例供用戶直接使用,包含商品推薦、新聞分類、金融風控、霧霾天氣預測、心臟病預測、農(nóng)業(yè)貸款發(fā)放、人口普查等,所有案例包含完整的數(shù)據(jù)集以及使用文檔。可以供用戶直接一鍵式使用。 |
PAI-Designer通用方案 | |
自定義工作流模板 |
對于企業(yè)客戶,算法專家可以開發(fā)算法流程,將穩(wěn)定的工作流制作成模板分享給業(yè)務專家使用。業(yè)務專家直接基于自定義模板快速進行建模、部署、上線驗證。 |
創(chuàng)建工作流:自定義模板 | |
可視化大屏 |
Designer提供可視化大屏,幫助用戶做數(shù)據(jù)的可視化分析、模型的可視化分析、以及模型結果的可視化報告。 |
使用可視化大屏查看分析報告 | |
預置算法組件庫 |
支持數(shù)據(jù)源、數(shù)據(jù)預處理、特征工程、統(tǒng)計分析、機器學習、時間序列、推薦算法、異常檢測、自然語言處理、網(wǎng)絡分析、金融板塊、視覺算法、語音算法、自定義算法等上百種PAI內置算法組件,開箱即用。 |
組件參考:所有組件匯總 | |
支持自定義算法 |
支持用戶通過自定義SQL、Python、PyAlink腳本等方式實現(xiàn)節(jié)點。 |
自定義算法組件 | |
工作流構建管理能力被集成 |
提供標準OpenAPI/SDK支持被集成。 |
API概覽 | |
交互式建模DSW |
云原生開發(fā)環(huán)境 |
為用戶提供靈活、穩(wěn)定、易用和高性能的AI開發(fā)環(huán)境,支持基于CPU/GPU的多種模型開發(fā)訓練實例規(guī)格。 |
什么是DSW |
DSW Gallery |
DSW Gallery可以為廣大AI開發(fā)者提供來自各個行業(yè)和技術方向的簡單易用、一鍵啟動的案例,助力用戶有效提升開發(fā)效率。 |
功能試用:DSW Gallery | |
JupyterLab |
DSW集成了開源JupyterLab,并以插件化的形式進行深度定制化開發(fā)。無需任何運維配置,即可進行Notebook編寫、調試及運行Python代碼。 |
訪問DSW實例 | |
WebIDE |
提供WebIDE建模環(huán)境,可以自由安裝社區(qū)開源插件。 |
訪問DSW實例 | |
Terminal |
提供字符終端,方便模型調試。 |
訪問DSW實例 | |
實例環(huán)境持久化 |
支持用戶進行開發(fā)環(huán)境生命周期管理、實例環(huán)境保存、數(shù)據(jù)掛載共享、環(huán)境鏡像持久化等功能。 |
讀寫數(shù)據(jù)集數(shù)據(jù) | |
資源水位監(jiān)控 |
實時資源水位可視化查看。 |
訪問DSW實例 | |
制作鏡像 |
支持用戶將開發(fā)環(huán)境制作成ACR鏡像,用于后續(xù)的分布式訓練或者推理。 |
管理實例 | |
SSH遠程連接 |
為了滿足更靈活的SSH使用需求,DSW提供了兩種SSH連接方案:直連方式和ProxyClient方式。您可以綜合考慮兩種連接方式的資源依賴、使用方式和使用限制等因素,選擇適合您需求的連接方式。 |
通過SSH遠程連接DSW | |
實例管理能力被集成 |
提供標準OpenAPI/SDK,支持被集成。 |
API概覽 | |
分布式訓練DLC |
云原生分布式訓練環(huán)境 |
基于阿里巴巴容器服務為用戶提供靈活、穩(wěn)定、易用和極致性能的深度學習訓練環(huán)境,基于(CPU/GPU)提供深度學習訓練平臺。 |
分布式訓練(DLC) |
數(shù)據(jù)集掛載 |
支持多數(shù)據(jù)集,可以同時掛載多個NAS、OSS數(shù)據(jù)集。 |
準備工作 | |
公共/專有資源組 |
支持公共資源組與專有資源組。 |
準備工作 | |
官方鏡像/自定義鏡像 |
支持使用官方鏡像或自定義鏡像提交訓練任務。 |
準備工作 | |
分布式訓練 |
支持數(shù)據(jù)并行、模型并行及混合并行的分布式方案。 |
創(chuàng)建訓練任務 | |
訓練任務管理 |
任務生命周期管理,任務全流程把控。 |
管理訓練任務 | |
分布式訓練能力被集成 |
提供標準OpenAPI,支持被集成。 |
API概覽 | |
監(jiān)控和報警 |
DLC支持查看并監(jiān)控任務資源狀況,并且提供了全面詳細的監(jiān)控指標,幫助您更好地掌握資源負載情況。通過監(jiān)控報警功能,您可以對DLC分布式訓練任務的資源水位進行實時監(jiān)控,并靈活地配置報警規(guī)則和報警通知。如果資源水位出現(xiàn)波動,例如低于GPU使用率超過設定閾值,則會發(fā)送報警通知。 |
監(jiān)控與報警 | |
模型在線服務EAS |
資源組管理 |
EAS將集群資源分為不同的資源組進行隔離。新建模型服務時,您可以選擇將模型服務部署在公共資源組或自己創(chuàng)建的專屬資源組。 |
EAS資源組概述 |
服務/應用部署 |
EAS支持將從開源社區(qū)下載的模型或您自己訓練獲得的模型部署為推理服務或AI-Web應用。針對不同方式獲取的訓練模型,PAI-EAS支持不同的部署方式,您可以使用PAI-EAS的控制臺方式快速將其部署為API服務。 |
服務部署:控制臺 | |
服務調試與壓測 |
服務部署完成后,您可以使用在線調試/壓測功能來測試服務是否運行正常。 |
服務調試與壓測 | |
服務彈性伸縮 |
支持用戶配置水平自動擴縮容、定時自動擴縮容、彈性資源池等能力。 |
服務彈性伸縮 | |
服務調用 |
EAS根據(jù)客戶端所在的網(wǎng)絡環(huán)境不同,提供公網(wǎng)訪問、VPC訪問、VPC高速直連訪問三種不同的服務調用方法。 |
服務調用 | |
異步推理 |
EAS提供異步推理服務,支持通過訂閱或輪詢的方式來獲取推理結果。 |
異步推理服務 | |
資源組及服務管理能力被集成 |
提供標準OpenAPI/SDK,支持被集成。 |
API概覽 | |
AI資產(chǎn)管理 |
數(shù)據(jù)集 |
提供PAI標注及模型構建等流程中數(shù)據(jù)集的管理,支持OSS、NAS的數(shù)據(jù)源,提供PAI公共數(shù)據(jù)集,支持SDK調用。 |
創(chuàng)建及管理數(shù)據(jù)集 |
模型 |
PAI支持統(tǒng)一管理用戶模型的版本、血緣、評估指標、關聯(lián)服務等豐富信息。 |
注冊及管理模型 | |
任務 |
提供分布式訓練任務、PAIFlow工作流任務的管理。 |
任務管理 | |
鏡像 |
提供PAI官方鏡像合集以及用戶自定義鏡像管理能力。 |
查看并添加鏡像 | |
代碼配置 |
支持用戶將代碼repo注冊至PAI平臺進行管理,方便在各產(chǎn)品模塊中進行代碼版本管理。 |
代碼配置 | |
自定義組件 |
PAI提供自定義算法組件功能,便于您根據(jù)使用場景創(chuàng)建自定義組件。您可以在Designer中將自定義組件和PAI官方組件串聯(lián)使用,實現(xiàn)更靈活的工作流編排。 |
自定義組件 | |
自動機器學習AutoML |
自動超參調優(yōu)HPO |
HPO(Hyper Parameter Optimization)是AutoML提供的對模型參數(shù)、訓練參數(shù)等進行自動搜索調優(yōu)的服務。 |
AutoML工作原理 |
特征平臺FeatureStore |
任務中心 |
FeatureStore為您提供任務中心功能,記錄了數(shù)據(jù)離在線同步、訓練樣本導出等任務的日志詳細信息,您可以在特征項目中的任務中心中查看當前項目的所有任務及任務狀態(tài)。 |
任務中心 |
場景化解決方案 |
多媒體分析 |
提供圖像領域內開箱即用的算法服務能力,包括圖像打標、圖像分類、圖像質量分評定等。 |
多媒體分析概述 |
智能設計ArtLab |
為設計師群體提供的一站式自動化AIGC設計工具,集成了Stable Diffusion、Kohya等主流的文生圖、圖生圖能力,打通了圖片數(shù)據(jù)集管理、圖片打標、LoRA模型訓練、AI繪圖的AIGC全場景鏈路,幫助設計師在設計、藝術、創(chuàng)意行業(yè)快速應用AIGC能力。 |
智能設計(ArtLab) | |
AI加速 |
數(shù)據(jù)集加速器datasetacc |
數(shù)據(jù)集加速器(DatasetAcc)依托于阿里云構建的PaaS服務,主要解決云上AI加速-數(shù)據(jù)集加速的場景。在機器學習訓練場景下,通過對客戶訓練的數(shù)據(jù)集進行預分析和處理,為各種云原生的訓練引擎提供統(tǒng)一的數(shù)據(jù)集訪問加速方案,提升整體訓練效率。 |
數(shù)據(jù)集加速器概述 |
分布式訓練加速TorchAcc |
PAI-TorchAcc(Torch Accelerator)是基于PyTorch的訓練加速框架,通過GraphCapture技術將PyTorch動態(tài)圖轉換為靜態(tài)執(zhí)行圖,然后進一步基于計算圖完成分布式優(yōu)化、計算優(yōu)化,從而提高PyTorch模型訓練的效率,使其更加易于使用。 |
分布式訓練加速TorchAcc概述 | |
大規(guī)模分布式訓練框架EPL |
EPL是高效易用的分布式模型訓練框架,深度集成多種訓練優(yōu)化技術,提供了簡單易用的API實現(xiàn)各種并行化策略。您可以使用EPL實現(xiàn)低成本、高性能分布式模型訓練。 |
AI加速:使用EPL實現(xiàn)AI訓練加速 | |
Transformer訓練加速Rapidformer |
PAI-Rapidformer結合了多種優(yōu)化技術,對PyTorch版Transformer模型的訓練進行優(yōu)化,從而達到最優(yōu)的訓練性能。 |
訓練加速(Rapidformer)概述 | |
模型優(yōu)化Blade |
Blade有機融合多種優(yōu)化技術,對模型進行分析,智能優(yōu)化達到最優(yōu)的推理性能。 |
推理加速(Blade)概述 | |
PAI-SDK |
分布式模型訓練 |
PAI Python SDK提供了更易用的API(即HighLevel API),支持用戶提交訓練作業(yè)到PAI,使用云上資源運行。 |
提交訓練作業(yè) |
模型服務部署 |
PAI Python SDK提供了易用的API(即HighLevel API),支持用戶將模型部署到PAI創(chuàng)建推理服務。 |
部署推理服務 |