使用云監(jiān)控對網(wǎng)站業(yè)務進行監(jiān)控與告警
云上業(yè)務通常涉及多種云產(chǎn)品及大量云資源,因此,實時了解系統(tǒng)業(yè)務的運行狀況至關重要。這將有助于提前識別潛在問題,避免可能出現(xiàn)的業(yè)務故障,進而提升業(yè)務連續(xù)性。為實現(xiàn)上述目標,您需要為業(yè)務構建監(jiān)控能力。本文將以通用網(wǎng)站業(yè)務架構為例,為您介紹使用云監(jiān)控構建網(wǎng)站監(jiān)控能力的一些思路和方法。
背景介紹
除了ECS,阿里云還為您提供多種可供選擇的云產(chǎn)品,包括ALB、NAT、IPv6網(wǎng)關、OSS、RDS等。如需快速搭建完善的監(jiān)控體系以覆蓋眾多云產(chǎn)品,您可以選擇使用云監(jiān)控。
云監(jiān)控為云上用戶提供開箱即用的企業(yè)級開放型一站式監(jiān)控解決方案。云監(jiān)控涵蓋IT設施基礎監(jiān)控和外網(wǎng)網(wǎng)絡質量撥測監(jiān)控,基于事件、自定義指標和日志提供業(yè)務監(jiān)控,為您全方位提供更高效、全面且節(jié)約成本的監(jiān)控服務。使用云監(jiān)控不僅可以幫助您提升系統(tǒng)服務的可用時長,還能夠降低企業(yè)IT運維的監(jiān)控成本。
前提條件
在開始設置云監(jiān)控前,您需要完成以下操作:
檢查ECS監(jiān)控插件運行情況,確保監(jiān)控信息能夠正常采集。如果安裝失敗則需要手動安裝插件,具體操作,請參見云監(jiān)控插件安裝指南。
提前添加報警聯(lián)系人和聯(lián)系組,具體操作,請參見創(chuàng)建報警聯(lián)系人或報警聯(lián)系人組。
整體思路
本文中以一個網(wǎng)站服務為示例,介紹如何為網(wǎng)站服務構建監(jiān)控能力的思路。本示例中,使用的云產(chǎn)品包括ECS、RDS和負載均衡。
為上圖所示的簡單網(wǎng)站架構構建監(jiān)控能力,通常可以遵循以下思路進行整體監(jiān)控能力的構建。
為ECS實例添加監(jiān)控報警。
為RDS MySQL數(shù)據(jù)庫添加監(jiān)控報警。
為負載均衡SLB添加監(jiān)控報警。
構建站點監(jiān)控能力。
探測網(wǎng)站服務相關頁面的性能與體驗。
管理系統(tǒng)事件服務。
構建一個自定義監(jiān)控大盤。
詳細步驟
接下來,我們將按照上面的監(jiān)控能力構建思路,通過阿里云的云監(jiān)控產(chǎn)品,為示例網(wǎng)站應用構建監(jiān)控能力,具體操作示例如下。
監(jiān)控ECS實例
查看ECS監(jiān)控指標
您可以通過云監(jiān)控查看ECS實例的監(jiān)控指標。
報警規(guī)則配置示例
建議您根據(jù)實際業(yè)務情況設定各項監(jiān)控指標的報警閾值。若閾值設置過低,將導致頻繁觸發(fā)報警,從而影響監(jiān)控服務的體驗;若閾值設置過高,則在觸發(fā)閾值后,可能沒有足夠的預留時間來響應和處理告警。
您可以自定義報警級別與指標閾值,以實現(xiàn)告警信息的通知功能。建議根據(jù)實際業(yè)務需求為需要監(jiān)控的ECS實例設置報警規(guī)則。以CPU使用率為例,應為服務器預留一定的處理性能以保障其正常運行。例如,設置CPU告警閾值為70%,在連續(xù)三次超過該閾值后開始觸發(fā)報警。
監(jiān)控RDS MySQL實例
查看RDS監(jiān)控指標
您可以通過云監(jiān)控查看RDS MySQL的監(jiān)控指標,以下是查看監(jiān)控指標的示例。
報警規(guī)則配置示例
您可以自定義報警級別和指標閾值,以實現(xiàn)告警信息的通知能力。建議根據(jù)實際業(yè)務需求為您需要監(jiān)控的ECS實例設置相應的報警規(guī)則。例如,可以將RDS的CPU使用率報警閾值設置為70%,并在連續(xù)三次超過該閾值后啟動報警。同時,您也可以根據(jù)實際情況設置其他監(jiān)控項,如硬盤使用率、IOPS使用率和連接數(shù)等。
監(jiān)控SLB
查看SLB監(jiān)控指標
您可以通過云監(jiān)控功能查看各個云產(chǎn)品的監(jiān)控指標,以下是監(jiān)控指標的示例。
報警規(guī)則配置示例
您可以自定義報警級別和指標閾值,以實現(xiàn)告警信息的通知功能。建議您根據(jù)實際業(yè)務情況為所需監(jiān)控的ECS實例設置相應的報警規(guī)則。為更有效地使用負載均衡的云監(jiān)控服務,您需先啟用負載均衡的健康檢查,并根據(jù)實際情況設置報警規(guī)則,例如將負載均衡帶寬值的告警閾值設定為7 Mbit/s。
關于更多云產(chǎn)品監(jiān)控指標的查看及報警配置方法,請參見云產(chǎn)品監(jiān)控。
構建站點監(jiān)控能力
站點監(jiān)控是云資源外層的監(jiān)控服務,主要用于模擬真實用戶的訪問情況,實時測試業(yè)務的可用性,并有助于故障的排查與處理。
站點監(jiān)控配置示例
查看站點監(jiān)控示例
探測目標頁面的性能與體驗
如果您需要對您的網(wǎng)站進行網(wǎng)絡質量分析、以便進行后續(xù)的開發(fā)、優(yōu)化、質檢與運營等,您可以為您的站點配置瀏覽器探測,相關操作,請參見探測目標頁面的性能體驗。
查看瀏覽器探測監(jiān)控指標
管理系統(tǒng)事件服務
事件監(jiān)控為您提供各云產(chǎn)品系統(tǒng)事件的統(tǒng)一查詢和統(tǒng)計入口,使您及時了解各云產(chǎn)品的運行狀態(tài)。這將幫助您在業(yè)務故障發(fā)生時,迅速分析并定位問題。有關云監(jiān)控支持的各云產(chǎn)品及其系統(tǒng)事件的詳細信息,請參見支持的云產(chǎn)品及其系統(tǒng)事件。
自定義監(jiān)控大盤
如果您希望在一個監(jiān)控大盤頁面內(nèi)查看所有云產(chǎn)品的自定義核心指標,可以通過云監(jiān)控的Dashboard功能來實現(xiàn)這一需求。該功能允許為業(yè)務系統(tǒng)的云資源設置監(jiān)控總覽,從而便于隨時檢查整個業(yè)務系統(tǒng)資源的健康狀態(tài)。如需了解更多自定義監(jiān)控大盤的使用示例,請參見自定義監(jiān)控概覽。
查看監(jiān)控報警信息
當指標滿足預定義的報警條件時,您所配置的相應報警渠道,例如聯(lián)系人的手機、郵箱及釘釘?shù)龋瑢邮盏絹碜栽票O(jiān)控的告警信息。同時,您也可以在云監(jiān)控控制臺查看報警的歷史相關報警信息。
相關文檔
關于如何快速構建主機監(jiān)控能力,請參見快速構建主機監(jiān)控能力。
關于多云和混合云場景下的資源監(jiān)控,請參見基于多云和混合云場景下的資源監(jiān)控。
關于如何通過企業(yè)監(jiān)控大盤跨賬號監(jiān)控阿里云產(chǎn)品,請參見通過企業(yè)監(jiān)控大盤跨賬號監(jiān)控阿里云產(chǎn)品。