本文主要介紹如何使用CloudLens for SLS中全局錯誤日志、監(jiān)控指標做Project資源配額的水位監(jiān)控、超限監(jiān)控及提交資源配額提升申請。
背景介紹
Alibaba Cloud Lens基于日志服務SLS構建云產品可觀測能力。支持一鍵開啟實例日志(重要日志、詳細日志、作業(yè)運行日志)和全局日志(審計日志、計費日志、錯誤日志、監(jiān)控指標)的采集功能。
日志分類 | 子分類 | 監(jiān)控場景說明 |
實例日志 | 詳細日志 | 訪問流量監(jiān)控 訪問異常監(jiān)控 |
重要日志 | 消費組監(jiān)控 Logtail采集監(jiān)控 | |
作業(yè)運行日志 | 數據加工(新版)監(jiān)控 定時SQL任務監(jiān)控 | |
全局日志 | 審計日志 | 資源操作監(jiān)控 |
錯誤日志 | 額度超限監(jiān)控 訪問異常監(jiān)控 操作異常監(jiān)控 | |
監(jiān)控指標 | 訪問流量監(jiān)控 訪問異常監(jiān)控 資源配額水位監(jiān)控 | |
計費日志 | 資源用量跟蹤 |
各類型日志說明,請參見日志索引表。
前提條件
已創(chuàng)建RAM用戶,并對RAM用戶授權。具體操作,請參見創(chuàng)建RAM用戶和授予RAM用戶操作CloudLens for SLS的權限。
已開啟全局日志:錯誤日志、指標監(jiān)控采集功能。具體操作,請參見開啟日志采集功能。
為了構建實時資源配額水位監(jiān)控,全局日志需開啟:錯誤日志、指標監(jiān)控;并且這兩種全局日志需存儲于同一Project內。
為了避免監(jiān)控日志存放在業(yè)務Project導致監(jiān)控占用Project的配額,可選擇系統(tǒng)推薦的固定地域目標Project,如杭州地域:
log-service-{用戶ID}-cn-hangzhou
。
查看額度監(jiān)控儀表盤
通過CloudLens for SLS額度監(jiān)控大盤,您可以查看資源配額預警情況、Project重點資源配額實時水位詳情及Project資源配額超限詳情。
- 登錄日志服務控制臺。
在
區(qū)域,單擊CloudLens for SLS。選擇左側菜單欄
,可查看配額信息。
資源配額預警概覽
報表提供資源配額預警概覽(水位超過80%)以及額度超限分布。
Project重點資源配額實時水位詳情
報表包含Project部分基礎資源配額以及數據讀寫資源配額的實時水位詳情。
Project資源配額超限詳情
報表提供Project資源配額超限詳情。
資源監(jiān)控
CloudLens for SLS支持提供基礎資源、數據讀寫等額度監(jiān)控和Logstore監(jiān)控、機器組監(jiān)控、Project寫入監(jiān)控等高級監(jiān)控。
- 登錄日志服務控制臺。
在日志應用區(qū)域,單擊CloudLens for SLS。
在CloudLens for SLS配置界面,單擊左側菜單欄中的異常檢測,可配置資源告警監(jiān)控。
額度監(jiān)控
額度監(jiān)控項分類說明如下:
分類 | 監(jiān)控項 | 說明 |
實時水位監(jiān)控 |
| |
| ||
額度超限監(jiān)控 |
|
基礎資源配額水位監(jiān)控
單擊新建告警,配置告警規(guī)則。
選擇創(chuàng)建告警需要掛載的Project為存儲全局錯誤日志和監(jiān)控指標所在Project。
根據業(yè)務場景配置告警觸發(fā)條件、以及告警策略。
根據下表完成配置,其余參數保持默認即可,具體信息,可參見創(chuàng)建日志告警監(jiān)控規(guī)則。
參數項
賦值
規(guī)則名稱
基礎資源配額水位監(jiān)控
檢查頻率
固定間隔,15分鐘
查詢統(tǒng)計
類型:指標庫
授權方式:默認
指標庫:internal-monitor-metric
查詢區(qū)間:15分鐘(相對)
查詢語句:
重要查詢SQL默認返回100條數據,若在SQL結尾添加limit 1000,代表可返回1000條查詢結果。
* | select Project, region, logstore_ratio, machine_group_ratio, logtail_config_ratio from (SELECT A.id as Project , A.region as region, round(COALESCE(SUM(B.count_logstore), 0)/cast(json_extract(A.quota, '$.logstore') as double) * 100, 3) as logstore_ratio, cast(json_extract(A.quota, '$.logstore') as double) as quota_logstore, round(COALESCE(SUM(C.count_machine_group), 0)/cast(json_extract(A.quota, '$.machine_group') as double) * 100, 3) as machine_group_ratio, cast(json_extract(A.quota, '$.machine_group') as double) as quota_machine_group, round(COALESCE(SUM(D.count_logtail_config), 0)/cast(json_extract(A.quota, '$.config') as double) * 100, 3) as logtail_config_ratio, cast(json_extract(A.quota, '$.config') as double) as quota_logtail_config FROM "resource.sls.cmdb.project" as A LEFT JOIN ( SELECT project, COUNT(*) AS count_logstore FROM "resource.sls.cmdb.logstore" as B GROUP BY project ) AS B ON A.id = B.project LEFT JOIN ( SELECT project, COUNT(*) AS count_machine_group FROM "resource.sls.cmdb.machine_group" as C GROUP BY project ) AS C ON A.id = C.project LEFT JOIN ( SELECT project, COUNT(*) AS count_logtail_config FROM "resource.sls.cmdb.logtail_config" as D GROUP BY project ) AS D ON A.id = D.project group by A.id, A.quota, A.region) where quota_logstore is not null and quota_machine_group is not null and quota_logtail_config is not null and (logstore_ratio > 80 or machine_group_ratio > 80 or logtail_config_ratio > 80) limit 10000
分組評估
標簽自動
觸發(fā)條件
當有Project的Logstore數、機器組數、Logtail采集配置其中一個水位超過額度的90%時告警級別為嚴重。
當有Project的Logstore數、機器組數、Logtail采集配置其中一個水位超過額度的80%時告警級別為中。
當有數據匹配
logstore_ratio > 90 || machine_group_ratio > 90 || logtail_config_ratio > 90
時,嚴重度:嚴重。當有數據匹配
logstore_ratio > 80 || machine_group_ratio > 80 || logtail_config_ratio > 80
時,嚴重度:中。
說明輸出目標
SLS通知
告警策略
普通模式
行動策略
按需選擇或單擊新增創(chuàng)建行動策略,具體操作,請參見創(chuàng)建行動策略。
參數配置完成后,單擊確定。
數據讀寫配額水位監(jiān)控
單擊新建告警,配置告警規(guī)則。
選擇創(chuàng)建告警需要掛載的Project為存儲全局錯誤日志和監(jiān)控指標所在Project。
根據業(yè)務場景配置告警觸發(fā)條件、以及告警策略。
根據下表完成配置,其余參數保持默認即可,具體信息,可參見創(chuàng)建日志告警監(jiān)控規(guī)則。
參數項
賦值
規(guī)則名稱
數據讀寫配額水位監(jiān)控
檢查頻率
固定間隔,15分鐘
查詢統(tǒng)計
類型:指標庫
授權方式:默認
指標庫:internal-monitor-metric
查詢區(qū)間:5分鐘(相對)
查詢語句:
重要查詢SQL默認返回100條數據,若在SQL結尾添加limit 1000,代表可返回1000條查詢結果。
(*)| select Project, region, inflow_ratio, write_cnt_ratio from (SELECT cmdb.id as Project, cmdb.region as region, round(COALESCE(M.name1,0)/round(cast(json_extract(cmdb.quota, '$.inflow_per_min') as double)/1000000000, 3) * 100, 3) as inflow_ratio, round(COALESCE(M.name2,0)/cast(json_extract(cmdb.quota, '$.write_cnt_per_min') as double) * 100, 3) as write_cnt_ratio from "resource.sls.cmdb.project" as cmdb LEFT JOIN ( select project, round(MAX(name1)/1000000000, 3) as name1, MAX(name2) as name2 from (SELECT __time_nano__ as time, element_at( split_to_map(__labels__, '|', '#$#') , 'project') as project, sum(CASE WHEN __name__ = 'logstore_origin_inflow_bytes' THEN __value__ ELSE NULL END) AS name1, sum(CASE WHEN __name__ = 'logstore_write_count' THEN __value__ ELSE NULL END) AS name2 FROM "internal-monitor-metric.prom" where __name__ in ('logstore_origin_inflow_bytes','logstore_write_count' ) and regexp_like(element_at( split_to_map(__labels__, '|', '#$#') , 'project') , '.*') group by project,time )group by project) AS M ON cmdb.id = M.project) where inflow_ratio > 80 or write_cnt_ratio > 80 limit 10000
分組評估
標簽自動
觸發(fā)條件
當有Project的Project寫入流量、寫入次數其中一個水位超過額度的90%時告警級別為嚴重。
當有Project的Project寫入流量、寫入次數其中一個水位超過額度的80%時告警級別為中。
當有數據匹配
where inflow_ratio > 90 || write_cnt_ratio > 90
時,嚴重度:嚴重。當有數據匹配
where inflow_ratio > 80 || write_cnt_ratio > 80
時,嚴重度:中。
說明輸出目標
SLS通知
告警策略
普通模式
行動策略
按需選擇或單擊新增創(chuàng)建行動策略,具體操作,請參見創(chuàng)建行動策略。
參數配置完成后,單擊確定。
資源配額超限次數監(jiān)控
單擊新建告警,配置告警規(guī)則。
選擇創(chuàng)建告警需要掛載的Project為存儲全局錯誤日志和監(jiān)控指標所在Project。
根據業(yè)務場景配置告警觸發(fā)條件、以及告警策略。
根據下表完成配置,其余參數保持默認即可,具體信息,可參見創(chuàng)建日志告警監(jiān)控規(guī)則。
參數項
賦值
規(guī)則名稱
資源配額超限次數監(jiān)控
檢查頻率
固定間隔,15分鐘
查詢統(tǒng)計
類型:日志庫
授權方式:默認
日志庫:internal-error_log
查詢區(qū)間:15分鐘(相對)
查詢語句:
重要查詢SQL默認返回100條數據,若在SQL結尾添加limit 1000,代表可返回1000條查詢結果。
((* and (ErrorCode: ExceedQuota or ErrorCode: QuotaExceed or ErrorCode: ProjectQuotaExceed or ErrorCode:WriteQuotaExceed or ErrorCode: ShardWriteQuotaExceed or ErrorCode: ShardReadQuotaExceed)))| SELECT Project, CASE WHEN ErrorMsg like '%Project write quota exceed: inflow%' then 'Project寫入流量超限' WHEN ErrorMsg like '%Project write quota exceed: qps%' then 'Project寫入次數超限' WHEN ErrorMsg like '%dashboard quota exceed%' then '報表額度超限' WHEN ErrorMsg like '%config count%' then 'Logtail采集配置超限' WHEN ErrorMsg like '%machine group count%' then '機器組超限' WHEN ErrorMsg like '%Alert count %' then '告警超限' WHEN ErrorMsg like '%logstore count %' then 'LogStore數超限' WHEN ErrorMsg like '%shard count%' then 'Shard數超限' WHEN ErrorMsg like '%shard write bytes%' then 'Shard寫入超限' WHEN ErrorMsg like '%shard write quota%' then 'Shard寫入超限' WHEN ErrorMsg like '%user can only run%' then 'SQL分析操作并發(fā)數超限' ELSE ErrorMsg END AS ErrorMsg, COUNT(1) AS count GROUP BY Project, ErrorMsg Limit 1000
分組評估
不分組
觸發(fā)條件
當有任意額度超限10次錯誤告警級別為嚴重。
當有任意額度發(fā)生超限1次錯誤時告警級別為中。
當有數據匹配
count > 10
時,嚴重度:嚴重。當有數據匹配
count > 1
時,嚴重度:中。
說明輸出目標
SLS通知
告警策略
普通模式
行動策略
按需選擇或單擊新增創(chuàng)建行動策略,具體操作,請參見創(chuàng)建行動策略。
參數配置完成后,單擊確定。
高級監(jiān)控
高級監(jiān)控項分類說明如下:
分類 | 場景 | 監(jiān)控項 | 說明 |
基礎資源配額 | 實時水位監(jiān)控 |
| |
額度超限監(jiān)控 |
| ||
實時水位監(jiān)控 |
| ||
額度超限監(jiān)控 |
| ||
實時水位監(jiān)控 |
| ||
額度超限監(jiān)控 |
| ||
數據讀寫資源配額 | 實時水位監(jiān)控 |
| |
額度超限監(jiān)控 |
| ||
實時水位監(jiān)控 |
| ||
額度超限監(jiān)控 |
|
Logstore監(jiān)控
實時水位監(jiān)控
單擊新建告警,配置告警規(guī)則。
選擇創(chuàng)建告警需要掛載的Project為存儲全局錯誤日志和監(jiān)控指標所在Project。
根據業(yè)務場景配置告警觸發(fā)條件、以及告警策略。
根據下表完成配置,其余參數保持默認即可,具體信息,可參見創(chuàng)建日志告警監(jiān)控規(guī)則。
參數項
賦值
規(guī)則名稱
Logstore數水位監(jiān)控
檢查頻率
固定間隔,15分鐘
查詢統(tǒng)計
類型:指標庫
授權方式:默認
指標庫:internal-monitor-metric
查詢區(qū)間:15分鐘(相對)
查詢語句:
重要查詢SQL默認返回100條數據,若在SQL結尾添加limit 1000,代表可返回1000條查詢結果。
* | select Project, region, round(count_logstore/quota_logstore * 100, 3) as logstore_ratio from (SELECT A.id as Project , A.region as region, COALESCE(SUM(B.count_logstore), 0) AS count_logstore , cast(json_extract(A.quota, '$.logstore') as double) as quota_logstore FROM "resource.sls.cmdb.project" as A LEFT JOIN ( SELECT project, COUNT(*) AS count_logstore FROM "resource.sls.cmdb.logstore" as B GROUP BY project ) AS B ON A.id = B.project group by A.id, A.quota, A.region) where quota_logstore is not null order by logstore_ratio desc limit 1000
分組評估
標簽自動
觸發(fā)條件
當有Project的LogStore數超過額度的90%時告警級別為嚴重。
當有Project的LogStore數超過額度的80%時告警級別為中。
當有數據匹配
logstore_ratio > 90
時,嚴重度:嚴重。當有數據匹配
logstore_ratio > 80
時,嚴重度:中。
說明輸出目標
SLS通知
告警策略
普通模式
行動策略
按需選擇或單擊新增創(chuàng)建行動策略,具體操作,請參見創(chuàng)建行動策略。
參數配置完成后,單擊確定。
額度超限監(jiān)控
單擊新建告警,配置告警規(guī)則。
選擇創(chuàng)建告警需要掛載的Project為存儲全局錯誤日志和監(jiān)控指標所在Project。
根據業(yè)務場景配置告警觸發(fā)條件、以及告警策略。
根據下表完成配置,其余參數保持默認即可,具體信息,可參見創(chuàng)建日志告警監(jiān)控規(guī)則。
參數項
賦值
規(guī)則名稱
Logstore數額度超限
檢查頻率
固定間隔,15分鐘
查詢統(tǒng)計
類型:日志庫
授權方式:默認
日志庫:internal-error_log
查詢區(qū)間:15分鐘(相對)
查詢語句:
重要查詢SQL默認返回100條數據,若在SQL結尾添加limit 1000,代表可返回1000條查詢結果。
* and (ErrorCode: ExceedQuota or ErrorCode: QuotaExceed or ErrorCode: ProjectQuotaExceed or ErrorCode:WriteQuotaExceed)| SELECT Project, COUNT(1) AS count where ErrorMsg like '%logstore count %' GROUP BY Project ORDER BY count DESC LIMIT 1000
分組評估
不分組
觸發(fā)條件
當有Project的Logstore發(fā)生超限10次錯誤告警級別為嚴重。
當有Project的Logstore發(fā)生超限1次錯誤時告警級別為中。
當有數據匹配
count > 10
時,嚴重度:嚴重。當有數據匹配
count > 1
時,嚴重度:中。
說明輸出目標
SLS通知
告警策略
普通模式
行動策略
按需選擇或單擊新增創(chuàng)建行動策略,具體操作,請參見創(chuàng)建行動策略。
參數配置完成后,單擊確定。
機器組監(jiān)控
實時水位監(jiān)控
單擊新建告警,配置告警規(guī)則。
選擇創(chuàng)建告警需要掛載的Project為存儲全局錯誤日志和監(jiān)控指標所在Project。
根據業(yè)務場景配置告警觸發(fā)條件、以及告警策略。
根據下表完成配置,其余參數保持默認即可,具體信息,可參見創(chuàng)建日志告監(jiān)控規(guī)則。
參數項
賦值
規(guī)則名稱
機器組水位監(jiān)控
檢查頻率
固定間隔,15分鐘
查詢統(tǒng)計
類型:指標庫
授權方式:默認
指標庫:internal-monitor-metric
查詢區(qū)間:15分鐘(相對)
查詢語句:
重要查詢SQL默認返回100條數據,若在SQL結尾添加limit 1000,代表可返回1000條查詢結果。
* | select Project, region, round(count_machine_group/quota_machine_group * 100, 3) as machine_group_ratio from (SELECT A.id as Project , A.region as region, COALESCE(SUM(B.count_machine_group), 0) AS count_machine_group , cast(json_extract(A.quota, '$.machine_group') as double) as quota_machine_group FROM "resource.sls.cmdb.project" as A LEFT JOIN ( SELECT project, COUNT(*) AS count_machine_group FROM "resource.sls.cmdb.machine_group" as B GROUP BY project ) AS B ON A.id = B.project group by A.id, A.quota, A.region) where quota_machine_group is not null order by machine_group_ratio desc limit 1000
分組評估
標簽自動
觸發(fā)條件
當有Project的機器組超過額度的90%時告警級別為嚴重。
當有Project的機器組超過額度的80%時告警級別為中。
當有數據匹配
machine_group_ratio > 90
時,嚴重度:嚴重。當有數據匹配
machine_group_ratio > 80
時,嚴重度:中。
說明輸出目標
SLS通知
告警策略
普通模式
行動策略
按需選擇或單擊新增創(chuàng)建行動策略,具體操作,請參見創(chuàng)建行動策略。
參數配置完成后,單擊確定。
額度超限監(jiān)控
單擊新建告警,配置告警規(guī)則。
選擇創(chuàng)建告警需要掛載的Project為存儲全局錯誤日志和監(jiān)控指標所在Project。
根據業(yè)務場景配置告警觸發(fā)條件、以及告警策略。
根據下表完成配置,其余參數保持默認即可,具體信息,可參見創(chuàng)建日志告警監(jiān)控規(guī)則。
參數項
賦值
規(guī)則名稱
Logstore數額度超限
檢查頻率
固定間隔,15分鐘
查詢統(tǒng)計
類型:日志庫
授權方式:默認
日志庫:internal-error_log
查詢區(qū)間:15分鐘(相對)
查詢語句:
重要查詢SQL默認返回100條數據,若在SQL結尾添加limit 1000,代表可返回1000條查詢結果。
* and (ErrorCode: ExceedQuota or ErrorCode: QuotaExceed or ErrorCode: ProjectQuotaExceed or ErrorCode:WriteQuotaExceed)| SELECT Project, COUNT(1) AS count where ErrorMsg like '%machine group count%' GROUP BY Project ORDER BY count DESC LIMIT 1000
分組評估
不分組
觸發(fā)條件
當有Project的機器組發(fā)生超限10次錯誤告警級別為嚴重。
當有Project的機器組發(fā)生超限1次錯誤時告警級別為中。
當有數據匹配
count > 10
時,嚴重度:嚴重。當有數據匹配
count > 1
時,嚴重度:中。
說明輸出目標
SLS通知
告警策略
普通模式
行動策略
按需選擇或單擊新增創(chuàng)建行動策略,具體操作,請參見創(chuàng)建行動策略。
參數配置完成后,單擊確定。
Logtail采集配置
實時水位監(jiān)控
單擊新建告警,配置告警規(guī)則。
選擇創(chuàng)建告警需要掛載的Project為存儲全局錯誤日志和監(jiān)控指標所在Project。
根據業(yè)務場景配置告警觸發(fā)條件、以及告警策略。
根據下表完成配置,其余參數保持默認即可,具體信息,可參見創(chuàng)建日志告警監(jiān)控規(guī)則。
參數項
賦值
規(guī)則名稱
Logtail采集配置水位監(jiān)控
檢查頻率
固定間隔,15分鐘
查詢統(tǒng)計
類型:指標庫
授權方式:默認
指標庫:internal-monitor-metric
查詢區(qū)間:15分鐘(相對)
查詢語句:
重要查詢SQL默認返回100條數據,若在SQL結尾添加limit 1000,代表可返回1000條查詢結果。
* | select Project, region, round(count_logtail_config/quota_logtail_config * 100, 3) as logtail_config_ratio from (SELECT A.id as Project , A.region as region, COALESCE(SUM(B.count_logtail_config), 0) AS count_logtail_config , cast(json_extract(A.quota, '$.config') as double) as quota_logtail_config FROM "resource.sls.cmdb.project" as A LEFT JOIN ( SELECT project, COUNT(*) AS count_logtail_config FROM "resource.sls.cmdb.logtail_config" as B GROUP BY project ) AS B ON A.id = B.project group by A.id, A.quota, A.region) where quota_logtail_config is not null order by logtail_config_ratio desc limit 1000
分組評估
標簽自動
觸發(fā)條件
當有Project的Logtail采集配置數超過額度的90%時告警級別為嚴重。
當有Project的Logtail采集配置數超過額度的80%時告警級別為中。
當有數據匹配
logtail_config_ratio > 90
時,嚴重度:嚴重。當有數據匹配
logtail_config_ratio > 80
時,嚴重度:中。
說明輸出目標
SLS通知
告警策略
普通模式
行動策略
按需選擇或單擊新增創(chuàng)建行動策略,具體操作,請參見創(chuàng)建行動策略。
參數配置完成后,單擊確定。
額度超限監(jiān)控
單擊新建告警,配置告警規(guī)則。
選擇創(chuàng)建告警需要掛載的Project為存儲全局錯誤日志和監(jiān)控指標所在Project。
根據業(yè)務場景配置告警觸發(fā)條件、以及告警策略。
根據下表完成配置,其余參數保持默認即可,具體信息,可參見創(chuàng)建日志告警監(jiān)控規(guī)則。
參數項
賦值
規(guī)則名稱
Logtail采集配置額度超限
檢查頻率
固定間隔,15分鐘
查詢統(tǒng)計
類型:日志庫
授權方式:默認
日志庫:internal-error_log
查詢區(qū)間:15分鐘(相對)
查詢語句:
重要查詢SQL默認返回100條數據,若在SQL結尾添加limit 1000,代表可返回1000條查詢結果。
* and (ErrorCode: ExceedQuota or ErrorCode: QuotaExceed or ErrorCode: ProjectQuotaExceed or ErrorCode:WriteQuotaExceed)| SELECT Project, COUNT(1) AS count where ErrorMsg like '%config count%' GROUP BY Project ORDER BY count DESC LIMIT 1000
分組評估
不分組
觸發(fā)條件
當有Project的Logtail采集配置發(fā)生超限10次錯誤告警級別為嚴重。
當有Project的Logtail采集配置發(fā)生超限1次錯誤時告警級別為中。
當有數據匹配
count > 10
時,嚴重度:嚴重。當有數據匹配
count > 1
時,嚴重度:中。
說明輸出目標
SLS通知
告警策略
普通模式
行動策略
按需選擇或單擊新增創(chuàng)建行動策略,具體操作,請參見創(chuàng)建行動策略。
參數配置完成后,單擊確定。
Project寫入流量監(jiān)控
實時水位監(jiān)控
單擊新建告警,配置告警規(guī)則。
選擇創(chuàng)建告警需要掛載的Project為存儲全局錯誤日志和監(jiān)控指標所在Project。
根據業(yè)務場景配置告警觸發(fā)條件、以及告警策略。
根據下表完成配置,其余參數保持默認即可,具體信息,可參見創(chuàng)建日志告警監(jiān)控規(guī)則。
參數項
賦值
規(guī)則名稱
Project寫入流量水位監(jiān)控
檢查頻率
固定間隔,15分鐘
查詢統(tǒng)計
類型:指標庫
授權方式:默認
指標庫:internal-monitor-metric
查詢區(qū)間:15分鐘(相對)
查詢語句:
重要查詢SQL默認返回100條數據,若在SQL結尾添加limit 1000,代表可返回1000條查詢結果。
(*)| SELECT Project, region , round(count_inflow/cast(quota_inflow as double) * 100, 3) as inflow_ratio FROM (SELECT cmdb.id as Project, cmdb.region as region, COALESCE(M.name1,0) as count_inflow, round(cast(json_extract(cmdb.quota, '$.inflow_per_min') as double)/1000000000, 3) as quota_inflow from "resource.sls.cmdb.project" as cmdb LEFT JOIN ( select project, round(MAX(name1)/1000000000, 3) as name1 from (SELECT __time_nano__ as time, element_at( split_to_map(__labels__, '|', '#$#') , 'project') as project, sum(CASE WHEN __name__ = 'logstore_origin_inflow_bytes' THEN __value__ ELSE NULL END) AS name1 FROM "internal-monitor-metric.prom" where __name__ ='logstore_origin_inflow_bytes' and regexp_like(element_at( split_to_map(__labels__, '|', '#$#') , 'project') , '.*') group by project,time )group by project) AS M ON cmdb.id = M.project )order by inflow_ratio desc limit 1000
分組評估
標簽自動
觸發(fā)條件
當有Project寫入流量超過額度的90%時告警級別為嚴重。
當有Project寫入流量超過額度的80%時告警級別為中。
當有數據匹配
inflow_ratio > 90
時,嚴重度:嚴重。當有數據匹配
inflow_ratio > 80
時,嚴重度:中。
說明輸出目標
SLS通知
告警策略
普通模式
行動策略
按需選擇或單擊新增創(chuàng)建行動策略,具體操作,請參見創(chuàng)建行動策略。
參數配置完成后,單擊確定。
額度超限監(jiān)控
單擊新建告警,配置告警規(guī)則。
選擇創(chuàng)建告警需要掛載的Project為存儲全局錯誤日志和監(jiān)控指標所在Project。
根據業(yè)務場景配置告警觸發(fā)條件、以及告警策略。
根據下表完成配置,其余參數保持默認即可,具體信息,可參見創(chuàng)建日志告警監(jiān)控規(guī)則。
參數項
賦值
規(guī)則名稱
Project寫入流量額度超限
檢查頻率
固定間隔,15分鐘
查詢統(tǒng)計
類型:日志庫
授權方式:默認
日志庫:internal-error_log
查詢區(qū)間:15分鐘(相對)
查詢語句:
重要查詢SQL默認返回100條數據,若在SQL結尾添加limit 1000,代表可返回1000條查詢結果。
* and (ErrorCode: ExceedQuota or ErrorCode: QuotaExceed or ErrorCode: ProjectQuotaExceed or ErrorCode:WriteQuotaExceed)| SELECT Project, COUNT(1) AS count where ErrorMsg like '%Project write quota exceed: inflow%' GROUP BY Project ORDER BY count DESC LIMIT 1000
分組評估
不分組
觸發(fā)條件
當有Project寫入流量發(fā)生超限10次錯誤告警級別為嚴重。
當有Project寫入流量發(fā)生超限1次錯誤時告警級別為中。
當有數據匹配
count > 10
時,嚴重度:嚴重。當有數據匹配
count > 1
時,嚴重度:中。
說明輸出目標
SLS通知
告警策略
普通模式
行動策略
按需選擇或單擊新增創(chuàng)建行動策略,具體操作,請參見創(chuàng)建行動策略。
參數配置完成后,單擊確定。
Project寫入次數監(jiān)控
實時水位監(jiān)控
單擊新建告警,配置告警規(guī)則。
選擇創(chuàng)建告警需要掛載的Project為存儲全局錯誤日志和監(jiān)控指標所在Project。
根據業(yè)務場景配置告警觸發(fā)條件、以及告警策略。
根據下表完成配置,其余參數保持默認即可,具體信息,可參見創(chuàng)建日志告警監(jiān)控規(guī)則。
參數項
賦值
規(guī)則名稱
Project寫入次數水位監(jiān)控
檢查頻率
固定間隔,15分鐘
查詢統(tǒng)計
類型:指標庫
授權方式:默認
指標庫:internal-monitor-metric
查詢區(qū)間:15分鐘(相對)
查詢語句:
重要查詢SQL默認返回100條數據,若在SQL結尾添加limit 1000,代表可返回1000條查詢結果。
(*)| SELECT Project, region, round(count_write_cnt/cast(quota_write_cnt as double) * 100, 3) as write_cnt_ratio FROM (SELECT cmdb.id as Project, cmdb.region as region, COALESCE(M.name1,0) as count_write_cnt, cast(json_extract(cmdb.quota, '$.write_cnt_per_min') as bigint) as quota_write_cnt from "resource.sls.cmdb.project" as cmdb LEFT JOIN ( select project, MAX(name1) as name1 from (SELECT __time_nano__ as time, element_at( split_to_map(__labels__, '|', '#$#') , 'project') as project, sum(CASE WHEN __name__ = 'logstore_write_count' THEN __value__ ELSE NULL END) AS name1 FROM "internal-monitor-metric.prom" where __name__ = 'logstore_write_count' and regexp_like(element_at( split_to_map(__labels__, '|', '#$#') , 'project') , '.*') group by project,time )group by project) AS M ON cmdb.id = M.project ) order by write_cnt_ratio desc limit 1000
分組評估
標簽自動
觸發(fā)條件
當有Project寫入次數超過額度的90%時告警級別為嚴重。
當有Project寫入次數超過額度的80%時告警級別為中。
當有數據匹配
inflow_ratio > 90
時,嚴重度:嚴重。當有數據匹配
inflow_ratio > 80
時,嚴重度:中。
說明輸出目標
SLS通知
告警策略
普通模式
行動策略
按需選擇或單擊新增創(chuàng)建行動策略,具體操作,請參見創(chuàng)建行動策略。
參數配置完成后,單擊確定。
額度超限監(jiān)控
單擊新建告警,配置告警規(guī)則。
選擇創(chuàng)建告警需要掛載的Project為存儲全局錯誤日志和監(jiān)控指標所在Project。
根據業(yè)務場景配置告警觸發(fā)條件、以及告警策略。
根據下表完成配置,其余參數保持默認即可,具體信息,可參見創(chuàng)建日志告警監(jiān)控規(guī)則。
參數項
賦值
規(guī)則名稱
Project寫入次數額度超限
檢查頻率
固定間隔,15分鐘
查詢統(tǒng)計
類型:日志庫
授權方式:默認
日志庫:internal-error_log
查詢區(qū)間:15分鐘(相對)
查詢語句:
重要查詢SQL默認返回100條數據,若在SQL結尾添加limit 1000,代表可返回1000條查詢結果。
* and (ErrorCode: ExceedQuota or ErrorCode: QuotaExceed or ErrorCode: ProjectQuotaExceed or ErrorCode:WriteQuotaExceed)| SELECT Project, COUNT(1) AS count where ErrorMsg like '%Project write quota exceed: qps%' GROUP BY Project ORDER BY count DESC LIMIT 1000
分組評估
不分組
觸發(fā)條件
當有Project寫入次數發(fā)生超限10次錯誤告警級別為嚴重。
當有Project寫入次數發(fā)生超限1次錯誤時告警級別為中。
當有數據匹配
count > 10
時,嚴重度:嚴重。當有數據匹配
count > 1
時,嚴重度:中。
說明輸出目標
SLS通知
告警策略
普通模式
行動策略
按需選擇或單擊新增創(chuàng)建行動策略,具體操作,請參見創(chuàng)建行動策略。
參數配置完成后,單擊確定。
資源配額調整申請
- 登錄日志服務控制臺。
- 在Project列表區(qū)域,單擊目標Project。
單擊圖標。
單擊資源配額對應的管理。
在資源配額面板中,調整目標資源的配額,然后單擊保存。