管理報(bào)警
當(dāng)您需要監(jiān)控各服務(wù)資源的使用情況時(shí),可以創(chuàng)建報(bào)警規(guī)則。如果資源的監(jiān)控指標(biāo)達(dá)到報(bào)警條件,云監(jiān)控自動(dòng)發(fā)送報(bào)警通知,幫助您及時(shí)得知集群的異常情況,并快速處理。本文為您介紹如何在EMR控制臺(tái)創(chuàng)建和查看報(bào)警規(guī)則。
背景信息
報(bào)警功能由云監(jiān)控服務(wù)提供。如果您需要管理報(bào)警規(guī)則或獲取更多監(jiān)控和報(bào)警功能,可以在云監(jiān)控控制臺(tái)完成。更多信息,請(qǐng)參見(jiàn)什么是云監(jiān)控。
前提條件
已創(chuàng)建集群,詳情請(qǐng)參見(jiàn)創(chuàng)建集群。
使用限制
如果您使用的是RAM用戶,則需要在RAM用戶權(quán)限中添加以下內(nèi)容。添加RAM用戶權(quán)限的詳細(xì)操作,請(qǐng)參見(jiàn)為RAM用戶授權(quán)。
{
"Version": "1",
"Statement": [
{
"Action": [
"cms:DescribeContactGroupList",
"cms:DescribeMetricMetaList",
"cms:PutResourceMetricRules",
"cms:DescribeMetricRuleList"
],
"Resource": "*",
"Effect": "Allow"
}
]
}
創(chuàng)建報(bào)警規(guī)則
通過(guò)模板創(chuàng)建報(bào)警規(guī)則
進(jìn)入報(bào)警管理頁(yè)面。
在頂部菜單欄處,根據(jù)實(shí)際情況選擇地域和資源組。
在EMR on ECS頁(yè)面,單擊目標(biāo)集群的集群ID。
單擊上方的集群監(jiān)控頁(yè)簽。
單擊報(bào)警管理。
在報(bào)警管理頁(yè)面,單擊創(chuàng)建報(bào)警規(guī)則。
在創(chuàng)建報(bào)警規(guī)則面板,單擊目標(biāo)服務(wù)操作列的創(chuàng)建報(bào)警規(guī)則。
編輯相關(guān)規(guī)則,單擊創(chuàng)建。
參數(shù)
說(shuō)明
規(guī)則描述
當(dāng)前模板下報(bào)警規(guī)則信息。您可以查看指標(biāo)名稱,并可以修改默認(rèn)閾值。
服務(wù)范圍及閾值說(shuō)明,請(qǐng)參見(jiàn)模板服務(wù)范圍。
通道沉默周期
如果報(bào)警發(fā)生后未恢復(fù)正常,間隔多久再次發(fā)送一次報(bào)警通知。
生效時(shí)間
表示報(bào)警規(guī)則的有效時(shí)段,報(bào)警規(guī)則只在有效時(shí)段內(nèi)才會(huì)檢查監(jiān)控?cái)?shù)據(jù)是否需要報(bào)警。
報(bào)警聯(lián)系人組
選擇相應(yīng)的報(bào)警聯(lián)系人組,從而實(shí)現(xiàn)通過(guò)報(bào)警聯(lián)系組接收?qǐng)?bào)警通知的目的。
報(bào)警通知方式
選擇報(bào)警通知方式和報(bào)警郵件主題。報(bào)警通知方式可選:
電話+短信+郵件+釘釘機(jī)器人
短信+郵件+釘釘機(jī)器人
郵件+釘釘機(jī)器人
報(bào)警郵件主題(非必填):填寫后,發(fā)送報(bào)警的郵件通知中會(huì)附帶您的備注信息。
報(bào)警回調(diào)地址
填寫公網(wǎng)可訪問(wèn)的URL,云監(jiān)控會(huì)將報(bào)警信息通過(guò)POST請(qǐng)求推送到該地址,目前僅支持HTTP協(xié)議。
創(chuàng)建完成后,報(bào)警規(guī)則對(duì)當(dāng)前實(shí)例生效。您可以在報(bào)警管理下查看已創(chuàng)建的報(bào)警規(guī)則。
單擊報(bào)警管理頁(yè)面的管理報(bào)警規(guī)則,可以跳轉(zhuǎn)到云監(jiān)控控制臺(tái)查看或修改報(bào)警規(guī)則。
自定義創(chuàng)建報(bào)警規(guī)則
進(jìn)入報(bào)警管理頁(yè)面。
在頂部菜單欄處,根據(jù)實(shí)際情況選擇地域和資源組。
在EMR on ECS頁(yè)面,單擊目標(biāo)集群的集群ID。
單擊上方的集群監(jiān)控頁(yè)簽。
單擊報(bào)警管理。
在報(bào)警管理頁(yè)面,單擊創(chuàng)建報(bào)警規(guī)則。
在創(chuàng)建報(bào)警規(guī)則面板,單擊自定義創(chuàng)建頁(yè)簽。
編輯相關(guān)規(guī)則,單擊創(chuàng)建。
參數(shù)
說(shuō)明
報(bào)警規(guī)則
設(shè)置報(bào)警規(guī)則,包括報(bào)警規(guī)則名稱和報(bào)警規(guī)則主體。
報(bào)警規(guī)則的主體,定義在監(jiān)控?cái)?shù)據(jù)滿足指定條件時(shí),觸發(fā)報(bào)警規(guī)則。
說(shuō)明報(bào)警規(guī)則中EMR監(jiān)控指標(biāo)的說(shuō)明信息,請(qǐng)參見(jiàn)云監(jiān)控指標(biāo)查詢。
通過(guò)單擊添加報(bào)警規(guī)則,您可以設(shè)置多個(gè)報(bào)警規(guī)則的主體。
通道沉默周期
如果報(bào)警發(fā)生后未恢復(fù)正常,間隔多久再次發(fā)送一次報(bào)警通知。
生效時(shí)間
表示報(bào)警規(guī)則的有效時(shí)段,報(bào)警規(guī)則只在有效時(shí)段內(nèi)才會(huì)檢查監(jiān)控?cái)?shù)據(jù)是否需要報(bào)警。
報(bào)警聯(lián)系人組
選擇相應(yīng)的報(bào)警聯(lián)系人組,從而實(shí)現(xiàn)通過(guò)報(bào)警聯(lián)系組接收?qǐng)?bào)警通知的目的。
報(bào)警通知方式
選擇報(bào)警通知方式和報(bào)警郵件主題。報(bào)警通知方式可選:
電話+短信+郵件+釘釘機(jī)器人
短信+郵件+釘釘機(jī)器人
郵件+釘釘機(jī)器人
報(bào)警郵件主題(非必填):填寫后,發(fā)送報(bào)警的郵件通知中會(huì)附帶您的備注信息。
報(bào)警回調(diào)(非必填)
填寫公網(wǎng)可訪問(wèn)的URL,云監(jiān)控會(huì)將報(bào)警信息通過(guò)POST請(qǐng)求推送到該地址,目前僅支持HTTP協(xié)議。
創(chuàng)建完成后,報(bào)警規(guī)則對(duì)當(dāng)前實(shí)例生效。您可以在報(bào)警管理下查看已創(chuàng)建的報(bào)警規(guī)則。
單擊報(bào)警管理頁(yè)面的管理報(bào)警規(guī)則,可以跳轉(zhuǎn)到云監(jiān)控控制臺(tái)查看或修改報(bào)警規(guī)則。
查看報(bào)警規(guī)則
在報(bào)警管理頁(yè)面,您可以查看已創(chuàng)建的報(bào)警規(guī)則。
參數(shù) | 說(shuō)明 |
規(guī)則名稱 | CMS報(bào)警規(guī)則名稱。 |
狀態(tài) | 當(dāng)前報(bào)警規(guī)則在云監(jiān)控服務(wù)中的生效狀態(tài),包括正常、報(bào)警、無(wú)數(shù)據(jù)、已禁用和已啟用。 |
規(guī)則描述 | 報(bào)警規(guī)則的主體。當(dāng)監(jiān)控?cái)?shù)據(jù)滿足報(bào)警條件時(shí),觸發(fā)報(bào)警規(guī)則。 |
報(bào)警聯(lián)系人組 | 發(fā)送報(bào)警的聯(lián)系人組。 |
操作 |
|
模板服務(wù)范圍
服務(wù)名稱 | 組件名稱 | 指標(biāo) | 說(shuō)明 |
節(jié)點(diǎn)(Host) | 磁盤 | emr_node_part_max_used | 每分鐘檢查一次指標(biāo)數(shù)據(jù)是否滿足平均值>80%,持續(xù)2個(gè)周期,滿足條件則觸發(fā)告警。 |
CPU | emr_node_cpu_idle | 每分鐘檢查一次指標(biāo)數(shù)據(jù)是否平均值<5%,持續(xù)5個(gè)周期,滿足條件則觸發(fā)告警。 | |
內(nèi)存 | emr_node_mem_used_percent | 每分鐘檢查一次指標(biāo)數(shù)據(jù)是否滿足平均值>90%,持續(xù)2個(gè)周期,滿足條件則觸發(fā)告警。 | |
HDFS | NameNode | hdfs_namenode_jvm_MemHeapUsedM / hdfs_namenode_jvm_MemHeapMaxM | 每分鐘檢查一次指標(biāo)數(shù)據(jù)是否滿足平均值>95%,持續(xù)2個(gè)周期,或者沒(méi)有指標(biāo)產(chǎn)生,滿足條件則觸發(fā)告警。 |
NameNode | hdfs_namenode_rpc_service_activity_CallQueueLength | 每分鐘檢查一次指標(biāo)數(shù)據(jù)是否平均值>1000,持續(xù)2個(gè)周期,滿足條件則觸發(fā)告警。 | |
NameNode | hdfs_namenode_fsnamesystem_CorruptBlocks | 每分鐘檢查一次指標(biāo)數(shù)據(jù)是否平均值>1,持續(xù)2個(gè)周期,滿足條件則觸發(fā)告警。 | |
NameNode | hdfs_namenode_safemode_status | 每分鐘統(tǒng)計(jì)一次,如果發(fā)生1次處于safemode的情況,則觸發(fā)告警。 | |
DataNode | hdfs_datanode_jvm_MemHeapUsedM / hdfs_datanode_jvm_MemHeapMaxM | 每分鐘檢查一次指標(biāo)數(shù)據(jù)是否滿足平均值>95%,持續(xù)2個(gè)周期,或者沒(méi)有指標(biāo)產(chǎn)生,滿足條件則觸發(fā)告警。 | |
Spark | SparkHistoryServer | spark_history_jvm_old_space_utilization | 每分鐘檢查一次指標(biāo)數(shù)據(jù)是否平均值>95%,持續(xù)2個(gè)周期,滿足條件則觸發(fā)告警。 |
SparkThriftServer | spark_thrift_driver_jvm_heap_used/spark_thrift_driver_jvm_heap_max | 每分鐘檢查一次指標(biāo)數(shù)據(jù)是否平均值>95%,持續(xù)2個(gè)周期,滿足條件則觸發(fā)告警。 | |
Hive | HiveMetaStore | hive_metastore_memory_heap_used/hive_metastore_memory_heap_max | 每分鐘檢查一次指標(biāo)數(shù)據(jù)是否平均值>95%,持續(xù)2個(gè)周期,滿足條件則觸發(fā)告警。 |
HiveMetaStore | hive_metastore_threads_blocked_count | 每分鐘檢查一次指標(biāo)數(shù)據(jù)是否平均值>50%,持續(xù)2個(gè)周期,滿足條件則觸發(fā)告警。 | |
HiveServer2 | hive_server_memory_heap_used/hive_server_memory_heap_max | 每分鐘檢查一次指標(biāo)數(shù)據(jù)是否平均值>95%,持續(xù)2個(gè)周期,滿足條件則觸發(fā)告警。 | |
HiveServer2 | hive_server_threads_deadlock_count | 每分鐘檢查一次指標(biāo)數(shù)據(jù)是否平均值>50%,持續(xù)2個(gè)周期,滿足條件則觸發(fā)告警。 | |
YARN | ResourceManager | yarn_cluster_status | 如果在過(guò)去5分鐘內(nèi)發(fā)生了多次HA切換(至少兩次),或者存在無(wú)狀態(tài)為1的節(jié)點(diǎn),或者存在狀態(tài)一直為-1的節(jié)點(diǎn),則觸發(fā)告警。 |
ResourceManager | yarn_resourcemanager_jvm_MemHeapUsedM / yarn_resourcemanager_jvm_MemHeapMaxM | 每分鐘檢查一次指標(biāo)數(shù)據(jù)是否滿足平均值>95%,持續(xù)2個(gè)周期,或者沒(méi)有指標(biāo)產(chǎn)生,滿足條件則觸發(fā)告警。 | |
NodeManager | yarn_cluster_unhealthyNodes | 每分鐘檢查一次指標(biāo)數(shù)據(jù)是否平均值>1,持續(xù)2個(gè)周期,滿足條件則觸發(fā)告警。 | |
NodeManager | yarn_nodemanager_jvm_MemHeapUsedM / yarn_nodemanager_jvm_MemHeapMaxM | 每分鐘檢查一次指標(biāo)數(shù)據(jù)是否滿足平均值>95%,持續(xù)2個(gè)周期,或者沒(méi)有指標(biāo)產(chǎn)生,滿足條件則觸發(fā)告警。 | |
TimelineServer | yarn_timelineserver_jvm_MemHeapUsedM / yarn_timelineserver_jvm_MemHeapMaxM | 每分鐘檢查一次指標(biāo)數(shù)據(jù)是否滿足平均值>95%,持續(xù)2個(gè)周期,或者沒(méi)有指標(biāo)產(chǎn)生,滿足條件則觸發(fā)告警。 | |
MRHistoryServer | yarn_jobhistory_jvm_MemHeapUsedM / yarn_jobhistory_jvm_MemHeapMaxM | 每分鐘檢查一次指標(biāo)數(shù)據(jù)是否滿足平均值>95%,持續(xù)2個(gè)周期,或者沒(méi)有指標(biāo)產(chǎn)生,滿足條件則觸發(fā)告警。 | |
Zookeeper | Zookeeper | zk_znode_count | 每分鐘檢查一次指標(biāo)數(shù)據(jù)是否平均值>=10000,持續(xù)2個(gè)周期,滿足條件則觸發(fā)告警。 |
Zookeeper | zk_watch_count | 每分鐘檢查一次指標(biāo)數(shù)據(jù)是否平均值>=1000,持續(xù)2個(gè)周期,滿足條件則觸發(fā)告警。 | |
Kafka | KafkaBroker | Kafka_Broker_kafka_log_LogManager_OfflineLogDirectoryCount | 每分鐘檢查一次指標(biāo)數(shù)據(jù)是否平均值>0,持續(xù)2個(gè)周期,滿足條件則觸發(fā)告警。 |
Kafka_Broker_kafka_server_ReplicaManager_UnderReplicatedPartitions | 每分鐘檢查一次指標(biāo)數(shù)據(jù)是否平均值>0,持續(xù)2個(gè)周期,滿足條件則觸發(fā)告警。 | ||
Presto/Trino | Trino | trino_QueryManager_FailedQueries_OneMinute_Count | 每分鐘檢查一次指標(biāo)數(shù)據(jù)是否平均值>=1,持續(xù)2個(gè)周期,滿足條件則觸發(fā)告警。 |
trino_ClusterMemoryPool_name_general_BlockedNodes | 每分鐘檢查一次指標(biāo)數(shù)據(jù)是否平均值>0,持續(xù)2個(gè)周期,滿足條件則觸發(fā)告警。 | ||
Presto | presto_QueryManager_FailedQueries_OneMinute_Count | 每分鐘檢查一次指標(biāo)數(shù)據(jù)是否平均值>=1,持續(xù)2個(gè)周期,滿足條件則觸發(fā)告警。 | |
presto_ClusterMemoryPool_name_general_BlockedNodes | 每分鐘檢查一次指標(biāo)數(shù)據(jù)是否平均值>0,持續(xù)2個(gè)周期,滿足條件則觸發(fā)告警。 | ||
Impala | Impalad | num_waiting_queries | 每分鐘檢查一次指標(biāo)數(shù)據(jù)是否平均值>=10,持續(xù)2個(gè)周期,滿足條件則觸發(fā)告警。 說(shuō)明 您可以根據(jù)集群查詢并發(fā)調(diào)整閾值。 |
Kudu | kudu-master | kudu_cluster_replica_skew | 每分鐘檢查一次指標(biāo)數(shù)據(jù)是否平均值>=1000,持續(xù)2個(gè)周期,滿足條件則觸發(fā)告警。 說(shuō)明 您可以根據(jù)使用情況適當(dāng)調(diào)整閾值。 |