MaxCompute作業運維功能支持查看歷史作業和正在運行的作業,方便您了解作業運行詳情及分析作業運行時的資源負載情況,幫助您對作業進行運維管理。
功能介紹
MaxCompute的作業運維功能支持查看并運維您當前項目下歷史作業和正在運行的作業。
如果您是數據開發人員,作業運維功能方便您日常查看作業詳情,及時發現作業的異常情況和問題,對有問題的作業及時進行處理,例如終止或批量終止作業。
如果您是管理員,作業運維功能方便您日常結合配額組查看某時刻的資源負載,合理分配和管理系統資源,提高作業的執行效率和性能。
您可以在MaxCompute管理控制臺的作業運維頁面通過配置過濾條件篩選目標作業,實現查看作業詳情、分析作業等功能。具體功能如下:
操作功能
過濾作業
按照過濾參數對作業進行過濾,篩選出您希望查看的作業,過濾作業參數說明如下。
參數
說明
時間范圍
按照時間范圍(開始和結束時間)進行過濾,必選參數。
說明總過濾條件,影響作業統計圖和作業列表。
輸入的時間有如下兩個含義:
過濾在這個時間范圍內執行完成的作業。
過濾在結束時間這個時間點或往前3分鐘正在運行的作業,會有作業快照信息,這個時間也稱為作業快照觀測時間。
默認范圍為最近1小時。時間范圍最長支持7天,最小支持2分鐘。最多可以搜索最近45天的作業。
您可以選擇已預置的時間范圍或單擊時間范圍輸入框,在選擇時間面板快速配置時間范圍:
1h:最近1小時。
12h:最近12小時。
1d:最近1天。
選擇具體時間段:在選擇時間面板,選擇需要查詢的年、月、日后單擊選擇時間,選擇時間段。
項目選擇
按照MaxCompute項目名稱進行過濾。
說明總過濾條件,影響作業統計圖和作業列表。
您可以同時選擇多個MaxCompute項目。默認為空。
Quota選擇
按照配額組進行過濾。
說明總過濾條件,影響作業統計圖和作業列表。
僅支持選擇包年包月配額組。默認為空。
說明查詢按量計費作業時,不需要配置該參數。
更多配額組信息,請參見計算資源-Quota管理。
作業類型
按作業類型進行過濾。
說明總過濾條件,影響作業統計圖和作業列表。
作業類型取值如下:
SQL:SQL作業。
SQLRT:查詢加速SQL作業。
LOT:MapReduce作業。
CUPID:Spark或Mars作業。
Algo_Task:機器學習作業。
GRAPH:圖計算作業。
Instance ID
按照MaxCompute作業生成的InstanceID進行過濾,您可以輸入作業的InstanceID精準查找作業。
說明對作業列表的結果進行二次過濾,僅影響作業列表。
默認為空。
更多InstanceID信息,請參見查看實例信息。
作業Owner
按照提交MaxCompute作業的賬號進行過濾。
說明對作業列表的結果進行二次過濾,僅影響作業列表。
默認為空。
不支持模糊查詢,格式必須是完整的賬號名如ALIYUN$xxx或RAM$xxx。
ExtNodeId
按照運行MaxCompute作業的來源端作業ID進行過濾。
說明對作業列表的結果進行二次過濾,僅影響作業列表。
如來自DataWorks的節點ID。更多DataWorks節點ID信息,請參見配置基礎屬性。
Signature
按SQL作業簽名過濾。
說明對作業列表的結果進行二次過濾,僅影響作業列表。
只有SQL類型作業可用。您可以通過此簽名查找同一個SQL每次執行的Instances。
默認為空。
最新狀態
按照作業運行狀態進行過濾。
說明對作業列表的結果進行二次過濾,僅影響作業列表。
作業運行狀態取值如下:
Running:正在運行,未結束的作業都處于此狀態。
Success:運行成功。
Failed:失敗。
Cancelled:取消。
Submitted:已提交,等待計算資源中。
默認為不選擇,即所有狀態。
說明這里的狀態是整個作業的總體狀態,但是作業本身可能會是多并發,每個并發會有不同的子狀態,詳細信息需要進入LogView進行查看,詳情請參見使用LogView 2.0查看作業運行信息。
智能診斷
根據作業智能診斷結果標簽進行過濾,默認為不選擇任何標簽。有關智能診斷結果標簽的詳細含義,請參見作業智能診斷。
排序作業
作業篩選結果默認按作業結束時間從高到低排序,未結束的作業會排在最前。支持普通單列排序和高級多列排序。
普通單列排序:對列表中有排序按鈕的列進行升序或降序排列。
高級多列排序:單擊列表右上方的高級排序按鈕,通過添加排序增加多列列名,并指定每列的排序方式為升序或降序,單擊確定實現多列排序。
說明高級排序條件生效時,無法進行普通單列排序,需單擊列表右上方的高級排序按鈕,單擊重置并確定后,方可再進行普通單列排序。
查看作業詳情
您可以在作業列表,單擊目標作業操作列的LogView跳轉至LogView頁面,查看作業運行的狀態、細節及結果。
終止作業
您可以對最新狀態為
正在運行(Running)
狀態的作業,執行終止或批量終止操作。洞察作業
您可以對單個作業執行洞察操作,以查看作業概覽信息、資源消耗情況及某時刻計算Quota的資源分配情況,并觸發作業智能診斷操作。
說明當前僅支持對SQL作業進行智能診斷。
運行時長小于2分鐘或作業類型為SQL、MapReduce、Spark、Mars以外的作業,暫時沒有作業級別資源消耗數據。
作業統計圖
根據過濾條件篩選的結果,按時間和狀態繪制作業數統計堆積柱形圖,方便您查看作業運行整體情況。
不同的時間范圍,每根柱形代表的時長不一樣,詳細如下:
時間范圍在24小時內:每個柱形最小時間間隔是2分鐘,柱形個數為自適應,最多24個。
時間范圍大于24小時小于等于48小時:則固定每個柱形時間間隔為2小時,柱形個數為自適應,最多24個。
時間范圍大于48小時小于等于7天:則每個柱形時間間隔為6小時,柱形個數為自適應,最多29個。
其中統計的作業狀態包含:
運行中:快照為Running狀態。
已結束:已經成功、失敗或被終止的狀態。
由于作業快照數據是3分鐘采集一次,因此有些作業可能采集不到快照數據,因此即使是運行中的作業,快照狀態可能也為空。
支持通過鼠標拖選圖表進行時間范圍篩選,即把時間段縮短。
作業列表
作業列表即根據過濾條件篩選的作業結果,主要提供常用的作業信息方便您進行作業運維。
目前已知如下作業信息無法采集:
作業快照數據是三分鐘采集一次,因此有些作業快照數據采集不到,即在采集前三分鐘以內啟動的作業,采集不到快照數據。
通過PAI發起的部分MaxCompute作業(特別是RAM用戶發起的作業)暫時采集不到。
開發者版(即將停用)項目的作業采集不到。
由于數據處理有一定的頻率,當查看當前時刻的作業列表時,可能會出現一些作業當前狀態為Running
但LogView里看作業已經結束,特別是執行時間非常短的作業容易出現此情況,請以LogView里看到的最新狀態為準。
列名稱 | 說明 |
Instance ID | 每個MaxCompute作業都會生成一個Instance,每個Instance又會生成一個對應的Instance ID。同時顯示該作業所屬項目、類型、優先級信息。 您可以單擊InstanceID對應操作列的LogView跳轉至LogView頁面,查看作業的具體進度。查看LogView的方法,請參見使用LogView查看作業運行信息。 |
作業Owner | 運行MaxCompute作業的阿里云賬號。 您可以根據賬號信息找到作業所屬責任人。如果某個作業占用資源較多,影響其他任務運行,可以聯系對應責任人停止作業。停止作業的方法請參見實例操作。 |
最新狀態 | 作業當前最新狀態。 |
智能診斷 | 根據作業智能診斷得出結果后所生成的標簽。 |
提交時間 | Instance的提交時間。 |
開始運行時間 | 作業獲取第一份計算資源的時間。對于運行時間過短或不消耗計算資源(如DDL語句)的作業,以作業提交時間替代。默認不顯示,可單擊自定義列表選項設置顯示。 |
等待時長 | 作業從提交時間到開始運行時間的時長。默認不顯示,可單擊自定義列表選項設置顯示。 |
運行時長 | 作業從開始運行時間到結束運行時間的時長。默認不顯示,可單擊自定義列表選項設置顯示。 |
結束運行時間 | Instance運行結束時間。 |
總運行時長 | 作業從提交時間到結束時間總時長。 |
Quota(配額) | 作業運行所在的Quota。 |
快照狀態 | 作業在觀測時間的狀態。 |
CPU使用占比快照 | 作業在觀測時刻的CPU使用占比( |
內存使用占比快照 | 作業在觀測時刻的內存使用占比( |
CPU累計使用量 | 作業整個執行過程的CPU消耗總和,單位: |
內存累計使用量 | 作業整個執行過程的內存消耗總和,單位: |
ExtPlantFrom | 作業發起的客戶端。 例如DataWorks,需要發起端發起作業的時候主動傳入信息。 |
ExtNodeId | 作業發起端對應的任務ID。 例如DataWorks的節點ID,需要發起端發起作業的時候主動傳入信息。 |
ExtNodeOnDuty | 作業發起端對應的任務負責人賬號ID。 例如DataWorks的節點負責人,需要發起端發起作業的時候主動傳入信息。 |
Signature | SQL作業簽名。 可通過此簽名查找SQL每次執行的Instances。 |
常用運維場景示例
查看具體作業運行詳情
運維場景
您需要查看某個DataWorks小時調度節點發起的作業運行情況或需要對指定的MaxCompute作業進行審計。
操作步驟
登錄MaxCompute管理控制臺的作業運維頁面。
根據實際需要設置時間范圍。
單擊搜索。
在作業列表上方,選擇ExtNodeId或Instance ID參數,填入您作業的實際值。
單擊按鈕,對作業列表再次過濾。
您可以在查詢結果列表中,單擊目標Instance操作列的LogView,跳轉至LogView頁面,查看作業運行詳細信息。更多LogView信息請參見使用LogView 2.0查看作業運行信息。
查看某個時段的作業運行詳情
運維場景
您需要查看負責的Project_1、Project_2兩個項目最近一天執行的作業,并分析哪些作業執行失敗,以便對失敗作業進行處理。
操作步驟
登錄MaxCompute管理控制臺的作業運維頁面。
設置時間范圍為1d或設置時間范圍為從這一天
00:00:00
開始到當前時間。在項目選擇下拉列表選擇Project_1和Project_2。
您可以在查詢結果列表中,單擊目標Instance操作列的LogView,跳轉至LogView頁面,查看作業運行詳細信息。更多LogView信息請參見使用LogView 2.0查看作業運行信息。
查看包年包月Quota某個時間點作業占用資源情況
運維場景
您的
預付費默認Quota
這個Quota當前資源使用的水位很滿,很多作業在等待,您需要查看具體什么作業在占用Quota資源。操作步驟
登錄MaxCompute管理控制臺的作業運維頁面。
設置時間范圍為1h或自定義
開始時間
,結束時間
即觀測時間輸入當前的時間。設置Quota選擇參數為
預付費默認Quota
。單擊搜索。
您可以在查詢結果列表中,查看快照狀態為
Running
作業的CPU使用占比快照和內存使用占比快照,可以查看占比最大的作業是否滿足業務情況,并通過其他作業信息輔助決定該作業是否為正常作業或者需要終止(kill)作業。說明每個作業的更多作業信息可以單擊目標Instance操作列的LogView,跳轉至LogView頁面,查看作業運行詳細信息。更多LogView信息請參見使用LogView 2.0查看作業運行信息。
查看查詢加速作業運行詳情
運維場景
您想要查看最近一天查詢加速作業的運行狀態和詳情。
操作步驟
登錄MaxCompute管理控制臺的作業運維頁面。
設置時間范圍為1d,作業類型選擇SQLRT(查詢加速)。
單擊搜索。
在作業列表查看作業基礎信息,每個作業的更多作業信息可以單擊目標Instance操作列的LogView,跳轉至LogView頁面,查看作業運行詳細信息。更多LogView信息請參見使用LogView 2.0查看作業運行信息。
說明使用查詢加速功能的作業,會出現多個SQL命令在同一個會話(Session)中執行的情況,一個會話對應一個Instance ID,您可以通過Instance ID對應的LogView查看該會話中所有SQL的運行情況。因此在作業運維頁面查看查詢加速作業時,您需要注意:
會話未退出時,即部分SQL已完成,部分SQL還在運行,作業的最新狀態為
Running
。會話過期退出或因為關閉界面退出時,作業的最新狀態為
Cancelled
。
查看作業資源消耗情況及某時刻計算Quota的資源分配情況
運維場景
當遇到作業運行較長時間仍未結束且通過LogView難以定位原因,或作業運行結束后,發現作業運行時長達不到預期(作業運行慢),您需要分析是否是因為資源供給導致的。
操作步驟
登錄MaxCompute管理控制臺的作業運維頁面。
選擇時間范圍同時配合Quota選擇參數進行過濾,單擊搜索。
單擊目標Instance ID操作列的洞察,跳轉至作業洞察頁面。
在資源消耗頁簽查看作業生命周期內的資源消耗情況。
資源消耗圖展示作業級別的使用CU與等待CU隨時間的變化曲線圖,以及作業運行的Quota級別的使用CU與等待CU隨時間變化。若發現作業使用CU較低,而Quota級別使用CU較高,甚至持續達到上限,說明Quota資源緊張,有其他作業在與當前作業搶占計算資源。
您可以通過單擊資源消耗圖橫軸的時間點,查看對應時刻計算Quota級別的資源分配情況,具體為所有運行中、等待中的資源分配給的作業數量與優先級分布,您可以單擊目標優先級對應的色塊跳轉至作業列表,查看對應作業的詳細信息。以此判斷出具體是哪些作業在與當前作業搶占計算資源。您可以依據業務情況優化任務執行情況,進行作業優先級調整或計算資源管理,詳情請參見作業優先級或計算資源-Quota管理。
下一步
相關文檔
通過命令查看作業信息、狀態和停止作業等操作,請參見實例操作。