本產品(
人工智能平臺 PAI - 分布式訓練(DLC)/2020-12-03
)的OpenAPI采用ROA簽名風格,簽名細節參見簽名機制說明。我們已經為開發者封裝了常見編程語言的SDK,開發者可通過下載SDK直接調用本產品OpenAPI而無需關心技術細節。如果現有SDK不能滿足使用需求,可通過簽名機制進行自簽名對接。由于自簽名細節非常復雜,需花費 5個工作日左右。因此建議加入我們的服務釘釘群(78410016550),在專家指導下進行簽名對接。在使用API前,您需要準備好身份賬號及訪問密鑰(AccessKey),才能有效通過客戶端工具(SDK、CLI等)訪問API。細節請參見獲取AccessKey。
任務
API | 標題 | API概述 |
---|---|---|
CreateJob | 創建任務 | 創建一個任務到集群中運行。您可以指定數據源配置、代碼源配置、啟動命令以及任務運行的每個節點的計算資源配置等信息。 |
DeleteJob | 刪除任務 | 刪除一個運行結束(或者已停止)的任務。 |
UpdateJob | 更新任務配置 | 更新一個任務的配置信息,例如修改一個排隊中任務的優先級。 |
StopJob | 停止任務 | 停止一個正在運行的任務。 |
ListJobs | 獲取任務列表 | 獲取任務列表,支持分頁、排序和按條件過濾。 |
GetJob | 獲取任務詳情 | 獲取一個任務的詳細配置和運行時信息。 |
GetJobSanityCheckResult | 獲取任務某次算力健康檢測結果 | 獲取DLC任務某次算力健康檢測結果。 |
ListJobSanityCheckResults | 獲取任務所有算力健康檢測結果 | 獲取某個DLC任務所有算力健康檢測的檢測結果。 |
GetPodLogs | 獲取任務中某個節點的日志 | 獲取(或者下載)任務某個節點的日志,日志來源于系統和用戶腳本的stdout和stderr。 |
GetPodEvents | 獲取任務中某個節點的系統事件 | 獲取一個任務中某個節點的系統事件。 |
GetJobMetrics | 獲取任務的監控數據 | 獲取一個任務的監控數據,包括CPU、GPU、Memory的使用率、Network、Disk讀寫速率等。 |
GetJobEvents | 獲取任務的系統事件 | 獲取一個任務的系統事件。 |
ListEcsSpecs | 查詢機器資源配置列表 | 查詢當前支持的機器資源配置列表。 |
GetWebTerminal | 獲取容器訪問HTTP鏈接 | 提供獲取容器訪問HTTP鏈接的方法和步驟。 |
GetToken | 獲取任務分享令牌 | 獲取用戶Token。 |
Tensorboard
API | 標題 | API概述 |
---|---|---|
CreateTensorboard | 創建Tensorboard | 創建一個Tensorboard,可以通過一個任務或者指定數據源配置來創建。 |
DeleteTensorboard | 刪除Tensorboard | 刪除一個已經停止的Tensorboard。 |
StartTensorboard | 啟動Tensorboard | 啟動一個Tensorboard。 |
UpdateTensorboard | 更新Tensorboard | 更新一個Tensorboard。 |
StopTensorboard | 停止Tensorboard | 停止一個Tensorboard。 |
ListTensorboards | 查詢Tensorboard列表 | 查詢已創建的Tensorboard列表。 |
GetTensorboard | 獲取Tensorboard詳情 | 獲取一個Tensorboard的詳細信息。 |
GetTensorboardSharedUrl | 獲得Tensorboard任務的分享鏈接 | 獲得Tensorboard的分享鏈接。該鏈接中包含數字令牌。使用該分享鏈接可以訪問被分享的Tensorboard任務。 |