應(yīng)用故障自動診斷
在EDAS中進(jìn)入應(yīng)用總覽頁面時(shí),會按照您自定義的時(shí)間段對該應(yīng)用的運(yùn)行情況做一個(gè)自動診斷。如果發(fā)現(xiàn)問題,則會在應(yīng)用總覽頁面上方閃現(xiàn)一個(gè)紅色盾牌圖標(biāo),單擊該圖標(biāo)即可彈出故障診斷報(bào)告,故障報(bào)告上的故障定界和根因分析可以幫助您更好地發(fā)現(xiàn)和解決問題。
常見的故障自動診斷場景
RT突增
下游業(yè)務(wù)導(dǎo)致的本應(yīng)用的RT突增,您可以聯(lián)系下游業(yè)務(wù)的負(fù)責(zé)人進(jìn)行排查。
應(yīng)用變更導(dǎo)致的RT突增,您可以查看此次變更的具體變更進(jìn)行排查。
應(yīng)用的某個(gè)服務(wù)導(dǎo)致RT突增,可以排查以下情況:
服務(wù)是否在此時(shí)有發(fā)生異常。
調(diào)用該服務(wù)的下游服務(wù)是否有出現(xiàn)RT較高的情況。
該服務(wù)調(diào)用的某服務(wù)的RT是否較高。
因?yàn)閱螜C(jī)的問題導(dǎo)致RT突增:
線程池滿,此時(shí)故障診斷報(bào)告中會給出線程數(shù)的時(shí)序圖。
單機(jī)FullGC。
單機(jī)磁盤讀寫異常。
單機(jī)OOM。
錯(cuò)誤請求或大請求的占比過高
某應(yīng)用服務(wù)的錯(cuò)誤請求次數(shù)出現(xiàn)突增,導(dǎo)致錯(cuò)誤請求占比過高。
某段時(shí)間出現(xiàn)的大請求和大響應(yīng)占比過高,導(dǎo)致序列化和反序列化耗時(shí)高。
宿主機(jī)負(fù)載過高
宿主機(jī)的負(fù)載過高導(dǎo)致容器提供服務(wù)的能力降低。
網(wǎng)絡(luò)問題
機(jī)房發(fā)生網(wǎng)絡(luò)故障導(dǎo)致應(yīng)用運(yùn)行異常。
查看故障自動診斷報(bào)告
登錄EDAS控制臺。
在左側(cè)導(dǎo)航欄,單擊 ,在頂部菜單欄選擇地域并在頁面上方選擇所屬微服務(wù)空間,在集群類型下拉列表,選擇K8s集群,然后在頁面單擊具體的應(yīng)用名稱。
在應(yīng)用總覽頁面的概覽分析頁簽右上角選擇您的自定義診斷時(shí)間。
重要當(dāng)診斷到自定義時(shí)間內(nèi)應(yīng)用運(yùn)行異常,將會在頁面上方的應(yīng)用名稱右側(cè)出現(xiàn)紅色盾牌圖標(biāo)。當(dāng)應(yīng)用沒有被診斷出故障時(shí),不代表應(yīng)用不存在潛在的問題。
在應(yīng)用總覽頁面上方的應(yīng)用名稱右側(cè)單擊。
在彈出的診斷報(bào)告中查看故障現(xiàn)象和原因分析。
診斷報(bào)告組成
診斷報(bào)告主要由4個(gè)部分組成:診斷詳情、故障定界、根因分析和數(shù)據(jù)支持。
診斷詳情:這一部分主要包含了診斷應(yīng)用、診斷時(shí)間和故障現(xiàn)象等3部分內(nèi)容。
故障定界:這一部分包含了診斷模型推測出的導(dǎo)致應(yīng)用故障的淺層原因,一般包含以下3種情況:
應(yīng)用的某個(gè)實(shí)例故障導(dǎo)致的整體故障。
應(yīng)用的某個(gè)接口或者服務(wù)故障導(dǎo)致的整體故障。
應(yīng)用的下游應(yīng)用故障導(dǎo)致本應(yīng)用故障。
根因分析:這一部分包含了診斷模型推測出來的深層原因,深層原因比較多,根據(jù)實(shí)際的情況有所不同。
數(shù)據(jù)支持:這一部分包含了得到推測結(jié)論的數(shù)據(jù)支持,不同故障原因的診斷報(bào)告中包含的分析數(shù)據(jù)將不一樣。