智能洞察是一個對應用進行定時巡檢的智能運維工具。針對巡檢后發現的事件,智能洞察可以給出具體的根因分析和建議。智能洞察內置了多種巡檢模塊, 您可以根據巡檢需求定制模塊參數。本文介紹如何修改巡檢模塊參數并管理巡檢模塊。
功能入口
- 登錄ARMS控制臺。
在左側導航欄選擇 。
- 在頂部菜單欄,選擇地域。
在巡檢配置頁面可以查看智能洞察預置的巡檢模塊。目前,智能洞察支持以下6種巡檢模塊:
錯誤率突增巡檢模塊:使用系統內置的異常檢測算法基于歷史數據來自動判斷應用錯誤率是否存在異常,如果發現異常則會產生相應的異常事件并進行根因分析。
平均響應時間突增巡檢模塊:使用系統內置的異常檢測算法基于歷史數據來自動判斷應用平均響應時間是否存在異常,如果發現異常則會產生相應的異常事件并進行根因分析。
流量突增巡檢模塊:使用系統內置的異常檢測算法基于歷史數據來自動判斷應用流量是否異常突增,如果發現異常則會產生相應的異常事件并對流量突增來源進行分析。
流量分布巡檢模塊:基于應用最近15分鐘某個類型服務(如HTTP、Dubbo、HSF)的流量數據,判斷應用是否存在流量不均異常。默認單機5分鐘流量不小于1000,默認最大流量和最小流量差30%。如果發現異常則會產生相應的異常事件并進行根因分析。
新增異常巡檢模塊:使用系統內置的檢測算法基于歷史數據來自動判斷應用是否存在新增異常,如有則會產生相應的異常事件并進行分析。
實例級服務指標離群巡檢模塊:基于應用最近1小時的服務指標數據來判斷是否存在部分實例的服務指標與服務整體指標的中位數相比存在顯著差異,如果發現異常則會產生相應的異常事件并進行分析。
啟停模塊
智能洞察預置的巡檢模塊默認都是開啟狀態,如果您需要關閉指定模塊,或開啟已關閉的模塊,在模塊管理頁簽單擊目標模塊右側對應的開關即可。
巡檢模塊關閉后,智能洞察將不會巡檢對應類型的事件。各巡檢模塊對應的事件類型如下:
巡檢模塊 | 事件類型 |
錯誤率突增巡檢模塊 |
|
平均響應時間突增巡檢模塊 |
|
流量突增巡檢模塊 | 應用服務整體流量突增 |
流量分布巡檢模塊 | 流量不均 |
新增異常巡檢模塊 | 新增異常 |
實例級服務指標離群巡檢模塊 |
|
修改模塊參數
流量分布巡檢模塊暫不支持修改模塊參數。
在巡檢配置頁面單擊目標模塊右側操作列的編輯,在模塊修改面板中修改參數后單擊確定。
各巡檢模塊的參數說明如下:
參數 | 說明 |
開啟 |
|
Top N接口檢測 |
|
額外接口 | 如果Top N接口無法滿足您的巡檢訴求,您可以在此處添加自己關心的接口。額外接口的優先級最高。 |
應用黑名單 | 如果某些應用完全不需要巡檢,可以在此處添加。 |
接口黑名單 | 如果某些接口不需要巡檢,可以在此處添加。優先級僅次于額外接口。 |
高級設置 | |
檢測閾值設定 | 待檢測資源需同時滿足下述所有條件,否則檢查將被跳過。
|
異常閾值設定 | 系統檢測到錯誤率升高,且當升高的情況滿足下述任一條件時,系統都會生成異常事件并進行根因診斷。
|
參數 | 說明 |
開啟 |
|
Top N接口檢測 |
|
額外接口 | 如果Top N接口無法滿足您的巡檢訴求,您可以在此處添加自己關心的接口。額外接口的優先級最高。 |
應用黑名單 | 如果某些應用完全不需要巡檢,可以在此處添加。 |
接口黑名單 | 如果某些接口不需要巡檢,可以在此處添加。優先級僅次于額外接口。 |
高級設置 | |
最小檢測RT(ms) | 當待檢測的應用或接口的RT低于設置的閾值時,系統將不進行檢查。 |
最小檢測流量(qps) | 當待檢測的應用或接口的流量低于設置的閾值時,系統將不進行檢查。 |
異常閾值設定 | 系統檢測到RT升高,且當升高的情況滿足下述任一條件時,系統都會生成異常事件并進行根因診斷。
|
參數 | 說明 |
開啟 |
|
應用黑名單 | 如果某些應用完全不需要巡檢,可以在此處添加。 |
巡檢最低流量/每分鐘 | 當待檢測的應用或接口的流量低于設置的閾值時,系統將不進行檢查。 |
流量差異比上限/每分鐘 | 流量小機器/流量大機器低于該上限則認為異常。 |
最小異常點個數 | 30分鐘檢測窗口內至少多少個點滿足流量差異比則產生異常事件,默認5個。 |
參數 | 說明 |
開啟 |
|
應用黑名單 | 如果某些應用完全不需要巡檢,可以在此處添加。 |
基線范圍(天) | 系統將使用基線范圍內的異常作為基準異常,不在其中的將被識別為新增異常。 |
異常最小發生次數/每分鐘 | 當新增異常每分鐘發生次數低于此值時將不會產生事件。 |
參數 | 說明 |
開啟 |
|
Top N接口檢測 |
|
額外接口 | 如果Top N接口無法滿足您的巡檢訴求,您可以在此處添加自己關心的接口。額外接口的優先級最高。 |
應用黑名單 | 黑名單中的應用將不進行巡檢 |
接口黑名單 | 如果某些接口不需要巡檢,可以在此處添加。優先級僅次于額外接口。 |
高級設置 | |
檢測閾值設定 | 待檢測資源需同時滿足下述所有條件,否則檢查將被跳過。
|
異常閾值設定 | 當異常持續時長超過設置時長且滿足其他任一條件時判定為有效異常,否則忽略。 異常持續時長(分鐘):當異常情況持續設置時間,才會被認定為有效異常,避免毛刺影響。 |