日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

作業智能診斷

Flink Advisor作業智能診斷服務能夠幫您監控作業健康狀況,分析和診斷錯誤日志、異常運行和風險情況,并提供可理解和可操作的診斷建議,全面保障您的業務穩定可靠運行。本文為您介紹如何使用作業智能診斷服務。

背景信息

Flink Advisor作業智能診斷服務實時監控作業的健康狀況并計算健康分數。健康分滿分為100,平臺會統計和分析最近半小時內作業情況,根據作業命中診斷風險的個數及風險等級進行相應扣分。從開發到運維全流程,它提供了作業看護和診斷能力。全量實時分析Flink作業全生命周期過程中產生的日志、事件、指標以及配置,并依據阿里云技術專家排查Flink作業高頻問題的運維經驗,提供作業開發態報錯日志診斷、運行態健康分及異常態根因診斷。針對診斷結果給出相應的優化和建議,減少您的數據分析耗時和修復時間,保障作業運行的穩定性和健康度。可以實現的功能如下圖所示。

image..png

使用限制

僅流作業支持作業智能診斷功能,批作業不支持作業智能診斷功能。

異常日志自動分析

開發態異常

  1. 實時計算管理控制臺,單擊目標工作空間操作列下的控制臺

  2. 數據開發 > ETL頁面編寫SQL后,單擊深度檢查

    深度檢查能夠檢查作業的SQL語義、網絡連通性以及作業使用的表的元數據信息。同時,您可以單擊結果區域的SQL優化,展開查看SQL風險問題提示以及對應的SQL優化建議。

  3. 在下方結果區域,查看問題、可能原因和參考方案。

    image..png

    說明

    如果深度檢查無法直接幫您提供問題原因和優化建議,您可以鼠標選中相關問題內容,單擊在幫助文檔中搜索,在幫助文檔中查找相關信息。

運行態異常

  1. 實時計算管理控制臺,單擊目標工作空間操作列下的控制臺

  2. 運維中心 > 作業運維頁面,單擊目標作業名稱。

  3. 作業日志頁簽左側,切換運行日志啟動日志異常信息后,查看運行態日志分析。

作業智能診斷.jpg

詳情請參見查看啟動和運行日志查看運行異常日志查看歷史作業實例日志

對作業進行智能診斷

  1. 進入智能診斷頁面。

    1. 實時計算管理控制臺,單擊目標工作空間操作列下的控制臺

    2. 運維中心 > 作業運維頁面,單擊目標作業名稱。

    3. 進入智能診斷頁面。

      您通過以下任意一種方式進入:

      • 在作業列表頁面,單擊目標作業健康分按鈕。健康分按鈕

        作業健康分顏色和含義詳情如下表。

        顏色

        含義

        健康分范圍

        綠色

        表示作業健康狀態良好,沒有發現潛在風險,但可能存在一些配置建議。

        大于80分

        黃色

        表示作業可能存在一些問題或潛在的風險,需要留意和進行檢查。

        60分~80分

        紅色

        表示存在嚴重問題,需要立即處理,否則可能會導致作業停止,影響業務正常運行。

        小于60分

      • 單擊目標作業名稱后,單擊智能診斷頁簽。

        作業智能診斷1.jpg

  2. 單擊開始診斷

    Flink Advisor建立了豐富的面向Flink錯誤日志的日志知識庫,具體的診斷類型、階段、診斷項及處理方法詳情請參見Flink Advisor診斷項

  3. 查看診斷結果和優化建議。

    對于系統提供的優化建議,您可以直接單擊對應的立刻應用

Flink Advisor診斷項

類型

階段

診斷項

診斷內容

異常(影響作業當前運行)

啟動

啟動文件分析

如果作業需要的OSS中的JAR包不存在,則作業會無法啟動。請您重新上傳JAR包后再啟動作業。

資源分析

如果剩余可用資源不足,則作業無法啟動。請您調小作業資源配置或對集群進行擴容解決。

如果綁定CNI失敗,則作業無法啟動。請您檢查對應vSwitch IP是否用完。

如果彈性網卡ENI的IP用量超過網絡上限,則作業無法啟動。建議您擴容彈性網卡后重試。

拓撲網絡分析

如果TaskManager與JobManager的網絡不通,則作業狀態顯示異常。

如果最近10分鐘內存在彈性網卡掛載超時,則作業啟動慢。建議您耐心等待。

上下游網絡分析

如果TCP端口探測正常,但Connector無法連通,作業無法啟動。建議您檢查上下游服務網絡配置是否正確。

上下游權限探測

如果上游數據源無法連通,則作業無法啟動。建議您檢查上游服務權限配置。

如果下游數據源無法連通,則作業無法啟動。建議您檢查下游服務權限配置。

啟動速度分析

如果作業JAR包過大,則作業啟動慢。建議您壓縮JAR包后重新上傳或耐心等待。

JobGraph檢查

由于產品老版本存在配置文件丟失的隱患,因此作業FailOver后可能會無法恢復。請手動重啟(停止后再啟動)作業解決。

Session集群檢查

由于產品老版本存在Session集群異常的隱患,因此作業狀態可能會顯示異常。

運行

HA狀態檢查

如果作業未開啟HA,則作業FailOver無法正常恢復。請重新上線作業并手動重啟(停止后再啟動)作業解決。

Checkpoint檢查

由于產品老版本存在CheckPoint功能異常的隱患,因此Checkpoint可能會失敗。

上下游權限探測

如果TCP端口探測正常,但Connector無法連通,作業無法啟動。建議您檢查上下游服務權限配置。

作業運行狀態檢查

作業的TaskManager發生內存溢出,導致作業Failover,請檢查作業配置,嘗試調大TaskManager內存。

停止

停止速度分析

由于產品老版本過低的隱患,因此停止作業會比較慢。如果出現作業停止比較慢的情況,請通過手動重啟(停止后再啟動)作業解決。

風險(不影響作業當前運行)

配置

JobGraph檢查

雖然作業當前狀態正常,但系統檢測到產品老版本存在配置文件丟失的隱患,FailOver后無法恢復。請手動重啟(停止后再啟動)作業解決。

HA狀態檢查

雖然作業當前狀態正常,但系統檢測到由于作業未開啟HA,會導致FailOver后無法恢復,請重新上線作業并手動重啟(停止后再啟動)作業解決。

版本檢查

雖然作業當前狀態正常,但檢測使用的版本存在重大缺陷。

運行

Checkpoint檢查

作業當前狀態雖正常,但檢測到由于產品老版本存在Checkpoint異常的穩定性隱患。

作業當前狀態雖正常,但檢測到Checkpoint已長時間未做成功。

停止速度分析

作業當前狀態雖正常,但檢測到由于產品老版本存在停止作業慢的隱患,請通過手動重啟(停止后再啟動)作業解決。

作業運行環境分析

  • 作業所在機器出現異常導致作業Failover,平臺會自動修復,您無需手動處理。

  • 作業所在機器升級過程,可能存在分鐘級的Failover,Failover成功后會自動恢復,您也可以在升級前手動重啟(停止后再啟動)作業,來提前規避。

  • 作業所在機器存在硬件故障,將在一段時間后自愈,屆時您的作業將會發生一次Failover。您可以手動重啟(停止后再啟動)作業,來規避自愈產生的Failover。

作業運行版本檢測

版本已到EOS(服務與支持中止),可能存在穩定性問題或無法得到有效的產品支持。詳情請參見如何查看當前作業的Flink版本?

相關文檔