事件管理
事件是指任何可能中斷或降低服務(wù)質(zhì)量(或具有此類威脅)的計(jì)劃外事件。例如業(yè)務(wù)出現(xiàn)風(fēng)險(xiǎn)、服務(wù)器運(yùn)行緩慢、接口響應(yīng)延時(shí)過高等一系列問題均屬于事件。它可能影響工作效率、降低客戶體驗(yàn),即使未造成嚴(yán)重后果,也應(yīng)該歸類為事件。
事件來源一般分為:
人工上報(bào)
系統(tǒng)發(fā)現(xiàn)
事件管理是針對(duì)事件進(jìn)行識(shí)別、記錄、分類、分派、分析、解決和完結(jié)的過程。事件管理的目標(biāo)是及時(shí)、準(zhǔn)確的接受時(shí)間,并進(jìn)行服務(wù)回復(fù)。盡可能的減少業(yè)務(wù)影響。通過事件管理可以實(shí)現(xiàn)快速定位問題、提高解決效率、減少重復(fù)問題的發(fā)生頻率、增強(qiáng)業(yè)務(wù)連續(xù)性、提高用戶體驗(yàn)、規(guī)范企業(yè)工作流程。
事件管理包括以下幾點(diǎn):
事件的識(shí)別與記錄:通過監(jiān)控工具、日志分析、人工上報(bào)等方式發(fā)現(xiàn)事件,并將其記錄。
事件分級(jí)與分類:根據(jù)事件的相關(guān)信息,可對(duì)事件進(jìn)行分級(jí)、分類,便于進(jìn)一步處理。
分級(jí):根據(jù)影響程度可分為:P1、P2、P3、P4。
分類:根據(jù)發(fā)生原因可分為:監(jiān)控誤報(bào)、業(yè)務(wù)波動(dòng)、代碼邏輯等問題。
事件處理人分派:可根據(jù)事件的影響面/服務(wù)/應(yīng)用等相關(guān)信息,將事件分派至對(duì)應(yīng)的人/群組。便于事件的快速響應(yīng)與處理,同時(shí)提高內(nèi)部信息的同步效率。
事件解決與分析:事件處理人可查看報(bào)警詳細(xì)信息,對(duì)事件進(jìn)行初步判斷與分析。并對(duì)事件進(jìn)行響應(yīng)與解決。在解決的同時(shí)需記錄解決方式與判斷條件等信息,便于后續(xù)發(fā)生同類事件的處理。
事件完結(jié):在處理完成相應(yīng)事件時(shí),需關(guān)閉此事件。事件記錄將被留存,在后續(xù)發(fā)生同類問題時(shí)可根據(jù)同類事件進(jìn)行查看,并快速處理此列問題。
通過事件管理,建立標(biāo)準(zhǔn)的事件操作流程的優(yōu)勢包括:
快速解決事件。
降低業(yè)務(wù)的損失與成本。
持續(xù)改進(jìn)與學(xué)習(xí)
運(yùn)維事件中心是阿里云提供的云上事件管理服務(wù)。通過集成監(jiān)控源告警數(shù)據(jù),并按照規(guī)則條件分派預(yù)通知的,都可以被稱之為事件。事件比報(bào)警優(yōu)先級(jí)更高,將強(qiáng)調(diào)分派到具體責(zé)任人,并持續(xù)跟進(jìn)解決、歸檔記錄。
事件主要用于管理通過規(guī)則自動(dòng)觸發(fā)或人工手動(dòng)新增的事件任務(wù),運(yùn)維事件中心的事件管理支持靈活的任務(wù)流轉(zhuǎn),關(guān)鍵事件優(yōu)先響應(yīng)、完結(jié)處理等操作以便提升關(guān)鍵任務(wù)的MTTA和MTTR;支持將影響惡化的事件一鍵升級(jí)為故障,實(shí)現(xiàn)事件全生命周期的在線化管理。
集成告警數(shù)據(jù):可集成多種告警源例如:ARMS、SLS、云監(jiān)控、Prometheus、Dynatrace等數(shù)十種監(jiān)控系統(tǒng)。同時(shí)支持自定義集成,可自動(dòng)解析告警信息。
事件分類與分派:首先維護(hù)服務(wù)、人員、服務(wù)組之間的關(guān)系。其次通過流轉(zhuǎn)規(guī)則將系統(tǒng)內(nèi)接受的告警信息按影響的服務(wù)/應(yīng)用進(jìn)行分類,可按告警信息字段設(shè)置觸發(fā)事件規(guī)則,同時(shí)將自動(dòng)按預(yù)先設(shè)置的流程將事件分派至對(duì)應(yīng)的處理人或組。
事件的處理與解決:事件處理人接受事件,并查看相應(yīng)的告警詳細(xì)信息,初步分析告警原因。在事件處理時(shí),可查看、參考相似事件的處理方式,以便于快速解決。同時(shí)支持在處理事件時(shí)進(jìn)行內(nèi)容記錄,便于后續(xù)的分析與參考。
事件的完結(jié)與持續(xù)運(yùn)營:當(dāng)事件解決后,需完結(jié)事件。在完結(jié)時(shí)需對(duì)事件進(jìn)行打標(biāo)處理,填寫事件觸發(fā)原因、解決方案等信息。通過這些信息的匯聚,可在后期統(tǒng)一進(jìn)行分析查看,協(xié)助后續(xù)類似事件發(fā)生的處理以及對(duì)系統(tǒng)架構(gòu)的優(yōu)化提供可靠依據(jù)。