云監控(CloudMonitor)是一項針對阿里云資源和互聯網應用進行監控的服務,提供豐富的監控指標。日志服務支持接入云監控數據,并支持您使用智能巡檢功能對云監控數據進行智能的異常巡檢。

前提條件

已導入云監控數據到目標Metricstore中(例如Project:monitor,Metricstore:cloud-monitor-metrics)。具體操作,請參見導入云監控數據

步驟一:分析數據

接入云監控數據后,您可以先選擇一個指標進行分析,并構造對應的查詢分析語句。當該指標的分析結果符合預期時,您可以根據業務需求篩選更多的指標,構造查詢分析語句,用于創建智能巡檢作業。

  1. 登錄日志服務控制臺
  2. 進入Metricstore頁面。
    1. 在Project列表區域,單擊目標Project。
    2. 時序存儲 > 時序庫頁簽中,單擊目標Metricstore。
  3. 查看監控指標。
    例如下圖中已接入582個監控指標,詳細的監控指標說明請參見預設監控項參考。此處以acs_ecs_dashboard:cpu_system:Average為例,選擇該指標后,日志服務將通過時序圖展示該指標的變化情況。智能巡檢-云監控指標
  4. 分析監控指標。
    1. 單擊頁面右上角的查詢頁面
    2. 輸入如下查詢分析語句,單擊查詢/分析
      * |
      select
        promql_query_range(
          'avg({__name__=~"acs_ecs_dashboard:cpu_system:Average"}) by (instanceId, __name__) ',
          '15s'
        )
      FROM  metrics
      limit
        1000000

      執行上述語句后,返回如下預期的結果,因此您可以將該查詢分析語句應用到更多的監控指標中。

      云監控指標
  5. 篩選監控指標。

    根據業務需求選擇更多的監控指標,構造查詢分析語句,用于智能巡檢。

    * |
    select
      time / 1000 as time,
      metric,
      element_at(labels, 'instanceId') as instanceId,
      value
    FROM  (
        select
          promql_query_range(
            'avg({__name__=~"acs_ecs_dashboard:CPUUtilization:Average|acs_ecs_dashboard:DiskReadBPS:Average|acs_ecs_dashboard:DiskReadIOPS:Average|acs_ecs_dashboard:DiskWriteBPS:Average"}) by (instanceId, __name__) ',
            '1m'
          )
        FROM      metrics
      )
    limit
      10000
    ECS相關的重要指標如下所示。詳細的監控指標說明請參見預設監控項參考
    acs_ecs_dashboard:CPUUtilization:Average
    acs_ecs_dashboard:DiskReadBPS:Average
    acs_ecs_dashboard:DiskReadIOPS:Average
    acs_ecs_dashboard:DiskWriteBPS:Average
    acs_ecs_dashboard:DiskWriteIOPS:Average
    acs_ecs_dashboard:InternetIn:Average
    acs_ecs_dashboard:InternetInRate:Average
    acs_ecs_dashboard:InternetOut:Average
    acs_ecs_dashboard:InternetOutRate:Average
    acs_ecs_dashboard:InternetOutRate_Percent:Average
    acs_ecs_dashboard:IntranetIn:Average
    acs_ecs_dashboard:IntranetInRate:Average
    acs_ecs_dashboard:IntranetOut:Average
    acs_ecs_dashboard:IntranetOutRate:Average
    acs_ecs_dashboard:cpu_idle:Average
    acs_ecs_dashboard:cpu_other:Average
    acs_ecs_dashboard:cpu_system:Average
    acs_ecs_dashboard:cpu_total:Average
    acs_ecs_dashboard:cpu_user:Average
    acs_ecs_dashboard:cpu_wait:Average
    acs_ecs_dashboard:disk_readbytes:Average
    acs_ecs_dashboard:disk_readiops:Average
    acs_ecs_dashboard:disk_writebytes:Average
    acs_ecs_dashboard:disk_writeiops:Average
    acs_ecs_dashboard:load_1m:Average
    acs_ecs_dashboard:load_5m:Average
    acs_ecs_dashboard:memory_actualusedspace:Average
    acs_ecs_dashboard:memory_freespace:Average
    acs_ecs_dashboard:memory_freeutilization:Average
    acs_ecs_dashboard:memory_totalspace:Average
    acs_ecs_dashboard:memory_usedspace:Average
    acs_ecs_dashboard:memory_usedutilization:Average
    acs_ecs_dashboard:net_tcpconnection:Average
    acs_ecs_dashboard:networkin_errorpackages:Average
    acs_ecs_dashboard:networkin_packages:Average
    acs_ecs_dashboard:networkin_rate:Average
    acs_ecs_dashboard:networkout_errorpackages:Average
    acs_ecs_dashboard:networkout_packages:Average
    acs_ecs_dashboard:networkout_rate:Average

步驟二:創建智能巡檢作業

  1. 登錄日志服務控制臺
  2. 進入創建作業頁面。
    1. 日志應用區域,單擊智能異常分析
    2. 在實例列表中,單擊目標實例。
    3. 在左側導航欄中,單擊智能巡檢
    4. 巡檢任務區域,單擊立即創建
  3. 創建智能巡檢作業配置向導的基本信息區域,完成如下配置,然后單擊下一步
    具體的參數說明,請參見通過SQL聚合指標數據進行智能巡檢云監控指標
  4. 創建智能巡檢作業配置向導的算法配置區域,完成以下操作。
    1. 數據特征配置區域的數據類型中,選擇通過SQL格式化數據,然后完成以下配置。

      其中,數據特征配置中的查詢和分析語句請參見步驟5。具體的參數說明,請參見通過SQL聚合指標數據進行智能巡檢

      云監控指標
    2. 算法配置區域,完成以下配置,然后在數據采樣中,選擇一個實體,單擊預覽采樣數據,驗證您所配置的參數與您的數據是否適配,以及執行結果是否符合您的預期。
      云監控指標
    3. 調度配置區域,設置智能巡檢作業開始執行的時間和數據延時時長。
      注意
      • 建議設置時間范圍的起始時間為兩天前的時間,使算法模型有足夠的數據進行學習。
      • 由于導入云監控數據存在延遲(大約3分鐘),因此建議設置數據延遲時長為300秒。
    4. 單擊下一步
  5. 創建智能巡檢作業配置向導的告警配置區域,完成以下配置,然后單擊完成
    如何獲取釘釘請求地址,請參見釘釘-自定義。關于新版告警的更多信息,請參見什么是日志服務告警
    告警
    當指標異常時,即result.score大于0.75時,日志服務將發送告警通知到釘釘群中。接收到告警后,您可以在釘釘群中,對告警進行打標。具體操作,請參見告警與打標反饋