若您需保障重要任務能按時完成,則可使用基線管理功能將重要任務添加至基線并設置承諾時間,系統將根據任務運行情況計算基線任務的預計完成時間。當系統判斷基線任務可能無法在承諾時間前完成時,將發出告警。本文為您介紹如何創建和管理基線。
背景信息
智能基線能夠及時捕捉導致任務無法按時完成的異常情況并提前預警,保障復雜依賴場景下重要數據能在預期時間內順利產出。詳情請參見智能基線概述。
基線創建完成且開啟后,第二天生效,您可于第二天前往周期實例頁面查看基線執行情況。
使用限制
版本要求:
僅DataWorks標準版及以上版本可使用基線管理功能。低版本用戶請先升級再使用該功能,詳情請參見DataWorks各版本詳解。
權限管控:
僅阿里云主賬號、擁有空間管理員或租戶管理員角色權限的RAM用戶可創建基線。
僅租戶管理員和基線責任人可開啟、關閉、刪除及修改基線。
如某用戶需執行上述操作,可為該用戶添加相關角色,詳情請參見為工作空間添加空間成員。
報警方式:
DataWorks支持使用郵件、短信、電話、釘釘群機器人和WebHook等報警方式,不同方式使用限制如下。
報警方式
可用DataWorks版本
可用地域
說明
短信
標準版及以上版本。
所有地域
其他地域如果希望通過短信方式報警,您需要先單擊申請鏈接加入“阿里云大數據AI平臺”交流群,再掃描下方二維碼加入DataWorks產品釘釘交流群,進行售前售后咨詢,咨詢可直接@智能機器人,值班時間段內也可直接聯系值班人員。
WebHook
企業版
華東2(上海)、西南1(成都)、華北3(張家口)、華北2(北京)、華東1(杭州)、華南1(深圳)、中國(香港)、歐洲中部 1(法蘭克福)、亞太東南1(新加坡)
僅支持推送報警信息至企業微信或飛書。
僅支持使用釘釘群、企業微信和飛書的WebHook地址。如您需要使用自主開發的WebHook發送消息服務,請參考智能監控自定義WebHook進行適配,并在完成后與我們聯系以便進一步處理。
說明RAM用戶如果希望通過短信、電話等方式接收告警信息,則需要在報警聯系人頁面,將目標RAM用戶添加為報警聯系人。當任務運行報錯時,DataWorks會將相應的報警信息發送至對應聯系人。詳情請參見查看和設置報警聯系人。
創建基線
進入運維中心頁面。
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的 ,在下拉框中選擇對應工作空間后單擊進入運維中心。
單擊左側導航欄中的
。創建基線。
在基線管理頁簽中,單擊新建基線。
配置基線的基本屬性。
參數說明如下。
參數
說明
基線名稱
自定義基線名稱。
所屬工作空間
選擇當前需保障的任務所屬的工作空間。
責任人
基線負責人。
基線類型
定義基線監測周期,包括天監測和小時監測。
天基線:按照天維度對任務進行監測,天調度任務可選擇此監測方式。
小時基線:按照小時維度對任務進行監測,小時調度任務可選擇此監測方式。
保障任務
選擇需要添加到當前基線上進行數據產出保障的任務。
任務節點:輸入任務節點名稱或ID,單擊右側的添加按鈕??商砑佣鄠€任務節點至當前基線。
業務流程:輸入業務流程名稱或ID,單擊右側的添加按鈕。默認將當前業務流程下的所有任務添加至當前基線。
說明選擇業務流程后,建議僅添加業務流程最下游的節點任務,添加后,影響該節點數據產出的上游節點都將被納入基線監控范圍,不推薦將業務流程上所有任務都添加至基線。
優先級
定義基線的優先級,數值越大基線優先級越高,基線上任務的優先級也會越高。優先級高的任務,在調度資源緊張的情況下,將優先獲得調度資源。配置優先級后將會在第二天生成的周期實例中生效。
說明MaxCompute節點任務:
如下情況該優先級將映射為MaxCompute計算任務的優先級。
MaxCompute Project開啟優先級功能。
MaxCompute Project使用包年包月計算資源。
MaxCompute作業優先級=9-DataWorks基線優先級。
EMR節點任務:
可通過設置節點所在基線優先級與YARN隊列優先級的映射關系,來調整該節點最終的YARN隊列優先級,即能否優先獲得調度和執行資源。詳情請參見設置基線優先級與YARN隊列優先級的映射關系。
預計完成時間
平臺將根據基線任務歷史一段時間內(通常統計范圍為10天)的平均完成時間計算基線的預計完成時間,若預計完成時間晚于基線預警時間,平臺會觸發基線報警。報警機制,請參見附錄:基線報警機制。
說明如果歷史數據不足,則系統會提示歷史數據不足,暫無法預估。
承諾時間
基線上的任務承諾的最晚完成時間(即需保障的數據最晚的產出時間),基線將根據該時間來推算預警時間。承諾時間需要基于預計完成時間來配置。保證
承諾時間 - 預警余量時間
晚于基線任務的預計完成時間。說明基線預警時間=承諾時間-預警余量
,若實際完成時間晚于承諾時間 - 預警余量時間
,則會觸發報警。例如,設置承諾時間為3:30
,預警余量為10分鐘,如果系統預測任務無法在3:20
分完成,則會發出基線報警。小時基線需要指定保障數據產出的小時實例,并設置該實例(小時任務某周期)最晚完成時間。
由于基線上的任務可能存在執行時長超過24小時的情況,因此,平臺允許承諾時間設置在2天內(即48小時內,
00:00~47:59
)。若基線上任務執行時間超過1天,可選擇將基線承諾時間設置在第二天的具體時間點。例如,基線上任務執行時間為一天半,則承諾時間可設置為36:00
。
預警余量
用于定義基線的預警時間。承諾時間與任務預計完成時間至少間隔5分鐘,否則會導致頻繁報警。建議預警余量基于基線上任務的運行時長來配置。詳情請參見:合理配置基線承諾時間和預警余量。
配置基線的報警行為。
您可通過報警開關控制基線是否開啟報警,并定義基線上數據無法按時產出時的基線報警策略,及影響基線數據產出的任務及其上游任務出錯或變慢時的事件報警策略。配置前,建議先了解基線的報警機制,詳情請參見附錄:基線報警機制。
打開報警開關。
打開報警開關后,DataWorks將根據配置的報警方式檢測,若滿足報警條件,則發送相關報警信息。
當預測到基線上任務無法在承諾時間內完成時,系統將根據定義的報警方式發送基線報警信息。詳情請參見核心邏輯介紹:基線報警。
當基線任務及其上游任務出錯,或關鍵路徑上的任務變慢時,系統將根據定義的報警方式發送事件報警信息。您可以在DataWorks的事件管理頁面查看當前已存在的事件列表。詳情請參見事件管理。
選擇報警方式。
報警開關打開后,您可根據需要選擇報警方式,建議對重要任務同時配置基線報警和事件報警。
重要如果無法正常接收報警,請參見在運維中心設置報警后收不到,該如何排查?
基線報警
參數
描述
基線開關
用于控制是否開啟該基線。
說明關閉報警開關后,基線不會產生任何報警。如果基線任務為開啟狀態,則基線實例會正常生成、基線優先級仍然生效。
報警方式
支持通過郵件、短信、電話方式給基線責任人、值班表中的當日值班人員或指定人員發送報警信息。配置值班表,詳情請參見值班表。
支持通過釘釘群機器人或WebHook地址給其他應用(目前支持釘釘、企業微信和飛書)發送報警信息。 配置釘釘機器人,詳情請參見場景實踐:發送報警消息至釘釘群。
說明您可通過校驗聯系方式或發送測試消息,驗證報警信息是否可正常發送。
僅DataWorks專業版及以上版本,才支持使用電話報警。
若您選擇通過電話方式進行報警,為避免短時間內產生大量報警電話,DataWorks會對報警電話進行過濾,同一個用戶在20分鐘內最多只會接收到一通報警電話,其余報警電話將被降級為短信,請知悉。
最大報警次數
報警的最大次數,超過設置的次數后,不再產生報警。
最小報警間隔
兩次報警之間的最小時間間隔。
免打擾時間
設置了免打擾時間后,則在該時間段內系統將不會發送告警。
例如,當目標任務設置的免打擾時間為
00:00
到08:00
時,則該時間段內基線與事件的報警將不會觸發。如果到達8點,事件仍處于異常狀態,則會發出報警信息。事件報警
參數
描述
事件類型
定義出現哪種類型的事件會產生報警。包括:
出錯:基線監控范圍內的任務運行失敗。
變慢:基線監控范圍內的任務本次運行時間和過去一段時間內的平均運行時間相比,明顯變長。
報警方式
支持通過郵件、短信、電話方式給任務責任人、值班表中的當日值班人員或指定人員發送報警信息。配置值班表,詳情請參見值班表。
支持通過釘釘群機器人或WebHook地址給其他應用(目前支持釘釘、企業微信和飛書)發送報警信息。配置釘釘機器人,詳情請參見場景實踐:發送報警消息至釘釘群。
說明您可通過校驗聯系方式或發送測試消息,驗證報警信息是否可正常發送。
僅DataWorks專業版及以上版本,才支持使用電話報警。
若您選擇通過電話方式進行報警,為避免短時間內產生大量報警電話,DataWorks會對報警電話進行過濾,同一個用戶在20分鐘內最多只會接收到一通報警電話,其余報警電話將被降級為短信,請知悉。
最大報警次數
報警的最大次數,超過設置的次數后,不再產生報警。
最小報警間隔
兩次報警之間的最小時間間隔。
免打擾時間
設置了免打擾時間后,則在該時間段內系統將不會發送告警。
例如,當目標任務設置的免打擾時間為
00:00
到08:00
時,則該時間段內基線與事件的報警將不會觸發。如果到達8點,事件仍處于異常狀態,則會發出報警信息。單擊確定,完成基線的創建。
說明關閉報警開關后,基線不會產生任何報警。如果基線任務為開啟狀態,則基線實例會正常生成、基線優先級仍然生效。
基線添加任務
每個任務只可以添加在一條基線上。例如,當任務A已添加至基線A上,此時新建基線B并添加任務A時,任務A將從基線A轉移至基線B。
當開啟狀態的基線上無任務時,該基線將變為空基線并產生空基線實例,空基線的說明,詳情請參見為什么在基線實例頁面會顯示基線狀態為空基線。
您可通過以下兩種方式添加任務至基線:
進入基線管理頁面,單擊右上角的新建基線進行添加。
進入周期任務頁面,選擇相應任務后的
。說明此方式僅支持新建基線并批量添加選中任務至該新建基線上,暫不支持將批量選中的任務添加至已有基線中。
單個任務添加至基線
單擊目標周期任務操作列的
。批量添加任務至基線
勾選多個周期任務,在底部菜單欄選擇
。
管理基線
您可在基線管理頁面根據責任人、工作空間、基線名稱、優先級等條件進行精確篩選,過濾目標基線,并執行如下基線操作:
查看詳情:查看基線任務的基本情況。
編輯基線:根據需要修改基線信息。
查看變更記錄:查看基線的歷史變更操作。
開啟或關閉基線:控制基線任務的狀態,開啟后方可生成周期實例。保障基線每日生成基線實例,您可在基線實例面板查看每日基線詳情。
刪除基線:根據需要刪除基線任務。
附錄:基線報警機制
基線報警是對開啟狀態且打開報警開關的基線提供的一個報警提醒,您可基于基線的預計完成時間配置基線的預警余量和承諾時間。DataWorks將根據監控范圍內任務歷史10天的平均完成時間推算出任務預計最晚完成時間,并結合基線上任務的實際運行情況進行監控,當預測到基線上任務無法在基線預警時間(基線承諾時間-預警余量)內完成時,系統將根據該基線定義的基線報警接收人發送基線報警信息。
預警余量和基線承諾時間設置不合理可能導致報警不符合預期,詳情請參見合理配置基線承諾時間和預警余量。
任務運行前,基線報警策略:
說明基線在每日任務運行前,通過計算當日基線監控范圍內任務歷史10天內的平均完成時間,將無法在基線預警時間內完成的異常信息第一時間發送給基線報警接收人員。在基線上的任務依賴關系錯綜復雜,并且依賴變更頻繁場景下,基線可為您提前發現問題并預警。
若根據基線任務歷史10天內的平均完成時間,推算出基線任務預計完成時間晚于基線預警時間,平臺將會觸發基線預警。您可在基線管理界面查看計算出的基線任務預計完成時間,詳情請參見創建基線。
若根據基線任務的上游任務歷史10天內的平均完成時間,推算出上游任務預計完成時間晚于基線預警時間,平臺將會觸發基線預警。
任務運行過程中,基線報警策略:
當基線上任務實際完成時間晚于基線預警時間時,將會觸發基線預警。
后續步驟
基線創建完成后,您可執行如下后續操作: