Flink Advisor作業智能診斷服務能夠幫您監控作業健康狀況,分析和診斷錯誤日志、異常運行和風險情況,并提供可理解和可操作的診斷建議,全面保障您的業務穩定可靠運行。本文為您介紹如何使用作業智能診斷服務。
背景信息
Flink Advisor作業智能診斷服務實時監控作業的健康狀況并計算健康分數。健康分滿分為100,平臺會統計和分析最近半小時內作業情況,根據作業命中診斷風險的個數及風險等級進行相應扣分。從開發到運維全流程,它提供了作業看護和診斷能力。全量實時分析Flink作業全生命周期過程中產生的日志、事件、指標以及配置,并依據阿里云技術專家排查Flink作業高頻問題的運維經驗,提供作業開發態報錯日志診斷、運行態健康分及異常態根因診斷。針對診斷結果給出相應的優化和建議,減少您的數據分析耗時和修復時間,保障作業運行的穩定性和健康度。可以實現的功能如下圖所示。
使用限制
僅流作業支持作業智能診斷功能,批作業不支持作業智能診斷功能。
異常日志自動分析
開發態異常
在實時計算管理控制臺,單擊目標工作空間操作列下的控制臺。
在
頁面,編寫SQL后,單擊深度檢查。深度檢查能夠檢查作業的SQL語義、網絡連通性以及作業使用的表的元數據信息。同時,您可以單擊結果區域的SQL優化,展開查看SQL風險問題提示以及對應的SQL優化建議。
在下方結果區域,查看問題、可能原因和參考方案。
說明如果深度檢查無法直接幫您提供問題原因和優化建議,您可以鼠標選中相關問題內容,單擊在幫助文檔中搜索,在幫助文檔中查找相關信息。
運行態異常
在實時計算管理控制臺,單擊目標工作空間操作列下的控制臺。
在
頁面,單擊目標作業名稱。在作業日志頁簽左側,切換運行日志、啟動日志和異常信息后,查看運行態日志分析。
詳情請參見查看啟動和運行日志、查看運行異常日志和查看歷史作業實例日志。
對作業進行智能診斷
進入智能診斷頁面。
在實時計算管理控制臺,單擊目標工作空間操作列下的控制臺。
在
頁面,單擊目標作業名稱。進入智能診斷頁面。
您通過以下任意一種方式進入:
在作業列表頁面,單擊目標作業健康分按鈕。
作業健康分顏色和含義詳情如下表。
顏色
含義
健康分范圍
綠色
表示作業健康狀態良好,沒有發現潛在風險,但可能存在一些配置建議。
大于80分
黃色
表示作業可能存在一些問題或潛在的風險,需要留意和進行檢查。
60分~80分
紅色
表示存在嚴重問題,需要立即處理,否則可能會導致作業停止,影響業務正常運行。
小于60分
單擊目標作業名稱后,單擊智能診斷頁簽。
單擊開始診斷。
Flink Advisor建立了豐富的面向Flink錯誤日志的日志知識庫,具體的診斷類型、階段、診斷項及處理方法詳情請參見Flink Advisor診斷項。
查看診斷結果和優化建議。
對于系統提供的優化建議,您可以直接單擊對應的立刻應用。
Flink Advisor診斷項
類型 | 階段 | 診斷項 | 診斷內容 |
異常(影響作業當前運行) | 啟動 | 啟動文件分析 | 如果作業需要的OSS中的JAR包不存在,則作業會無法啟動。請您重新上傳JAR包后再啟動作業。 |
資源分析 | 如果剩余可用資源不足,則作業無法啟動。請您調小作業資源配置或對集群進行擴容解決。 | ||
如果綁定CNI失敗,則作業無法啟動。請您檢查對應vSwitch IP是否用完。 | |||
如果彈性網卡ENI的IP用量超過網絡上限,則作業無法啟動。建議您擴容彈性網卡后重試。 | |||
拓撲網絡分析 | 如果TaskManager與JobManager的網絡不通,則作業狀態顯示異常。 | ||
如果最近10分鐘內存在彈性網卡掛載超時,則作業啟動慢。建議您耐心等待。 | |||
上下游網絡分析 | 如果TCP端口探測正常,但Connector無法連通,作業無法啟動。建議您檢查上下游服務網絡配置是否正確。 | ||
上下游權限探測 | 如果上游數據源無法連通,則作業無法啟動。建議您檢查上游服務權限配置。 | ||
如果下游數據源無法連通,則作業無法啟動。建議您檢查下游服務權限配置。 | |||
啟動速度分析 | 如果作業JAR包過大,則作業啟動慢。建議您壓縮JAR包后重新上傳或耐心等待。 | ||
JobGraph檢查 | 由于產品老版本存在配置文件丟失的隱患,因此作業FailOver后可能會無法恢復。請手動重啟(停止后再啟動)作業解決。 | ||
Session集群檢查 | 由于產品老版本存在Session集群異常的隱患,因此作業狀態可能會顯示異常。 | ||
運行 | HA狀態檢查 | 如果作業未開啟HA,則作業FailOver無法正常恢復。請重新上線作業并手動重啟(停止后再啟動)作業解決。 | |
Checkpoint檢查 | 由于產品老版本存在CheckPoint功能異常的隱患,因此Checkpoint可能會失敗。 | ||
上下游權限探測 | 如果TCP端口探測正常,但Connector無法連通,作業無法啟動。建議您檢查上下游服務權限配置。 | ||
作業運行狀態檢查 | 作業的TaskManager發生內存溢出,導致作業Failover,請檢查作業配置,嘗試調大TaskManager內存。 | ||
停止 | 停止速度分析 | 由于產品老版本過低的隱患,因此停止作業會比較慢。如果出現作業停止比較慢的情況,請通過手動重啟(停止后再啟動)作業解決。 | |
風險(不影響作業當前運行) | 配置 | JobGraph檢查 | 雖然作業當前狀態正常,但系統檢測到產品老版本存在配置文件丟失的隱患,FailOver后無法恢復。請手動重啟(停止后再啟動)作業解決。 |
HA狀態檢查 | 雖然作業當前狀態正常,但系統檢測到由于作業未開啟HA,會導致FailOver后無法恢復,請重新上線作業并手動重啟(停止后再啟動)作業解決。 | ||
版本檢查 | 雖然作業當前狀態正常,但檢測使用的版本存在重大缺陷。 | ||
運行 | Checkpoint檢查 | 作業當前狀態雖正常,但檢測到由于產品老版本存在Checkpoint異常的穩定性隱患。 | |
作業當前狀態雖正常,但檢測到Checkpoint已長時間未做成功。 | |||
停止速度分析 | 作業當前狀態雖正常,但檢測到由于產品老版本存在停止作業慢的隱患,請通過手動重啟(停止后再啟動)作業解決。 | ||
作業運行環境分析 |
| ||
作業運行版本檢測 | 版本已到EOS(服務與支持中止),可能存在穩定性問題或無法得到有效的產品支持。詳情請參見如何查看當前作業的Flink版本?。 |
相關文檔
Job Manager和運行Task Managers的性能查看詳情,請參見查看作業性能。
如果您希望系統能夠自動或者定時完成資源調節,而無需手動進行調節,可以配置自動調優,詳情請參見配置自動調優。
提升Flink SQL作業性能詳情,請參見高性能Flink SQL優化技巧。