可觀測監控 Prometheus 版支持通過node-exporter采集ECS Linux或Windows主機操作系統相關指標,也支持process-exporter采集進程相關監控數據,另外基于textfile的方式也支持采集用戶寫到文件中自定義監控指標。
前提條件
已創建ECS實例。具體操作,請參見通過控制臺使用ECS實例(快捷版)。
已開通阿里云資源中心。具體操作,請參見開通資源中心。
主機監控優勢
阿里云Prometheus主機監控針對阿里云ECS服務器提供了一個高效且易于管理的監控方案,這一方案的特點是順應了現代云計算環境中對于可觀測性和自動化管理的需求。
阿里云Prometheus提供的主機監控,具備阿里云ECS服務器、自建IDC內服務器、云廠商服務器全類型主機接入能力。針對阿里云ECS服務器可根據配置自動安裝各類開源Exporter,各類Exporter采集配置自動生成。托管Prometheus Agent實現自動采集,采集數據統一存儲、統一展示、統一告警。非阿里云主機不具備自動服務發現的能力,所以需要依賴用戶在接入時手動安裝阿里云采集探針,主動將監控數據上報到阿里云Prometheus存儲。
優勢 | 說明 |
主機秒級發現 |
|
探針秒級安裝 |
|
指標秒級采集 |
主機從創建到納入監控系統,整體可以在30 ~ 60s以內完成。主機所有指標數據可以支持1 ~ 60s時間間隔的靈活調整。整體實現主機全方位秒級監控能力。 |
探針Serverless化 |
|
智能指標標簽 |
|
超大規模數據采集與存儲 |
|
提供完善的上下游監控數據 |
|
進程級監控 |
|
默認提供Grafana專家級大盤 |
|
步驟一:接入主機監控數據
登錄ARMS控制臺。
在左側導航欄單擊接入中心。
在接入中心頁面,單擊左側基礎設施,然后單擊主機監控。
說明由于Prometheus依賴阿里云資源中心獲取云產品當前登錄賬戶的VPC、ECS等數據進行服務發現,如果沒有開通資源中心,接入流程會引導您先開通資源中心,具體操作請參見開通資源中心。
開通資源中心是異步操作,重新檢測后如果仍然是未開通狀態,可以等待10~20秒左右再單擊重新檢測。
在彈出的頁面中,選擇目標ECS(VPC),然后按照下表說明填寫配置信息。
指標
說明
NodeExporter 安裝方式
自動安裝(推薦):Prometheus會為用戶選擇的ECS默認安裝node-exporter,您無需其他操作即可接入。
自助安裝:自行安裝node-exporter。
主機服務發現方式
污點標簽選擇:黑名單機制。標簽匹配到的實例將不會接入Prometheus,沒有匹配到的ECS監控指標將會接入Prometheus,默認不會采集容器監控服務的節點。
無條件:安裝和采集當前VPC內所有ECS主機監控指標。
標簽選擇:白名單機制。標簽匹配到的實例將會接入Prometheus,沒有匹配到的ECS實例將不會接入Prometheus。
IP域選擇:該方式是提供一個網段,當ECS的IP地址匹配該網段時,即被選中。如果填寫VPC對應的網段,即代表命中當前VPC全部ECS。
實例ID:指定需要接入的實例ID,多個實例ID使用英文逗號分隔。
ECS 污點標簽
每一個污點標簽由key和value組成,可以設置多個污點標簽。
采集 TextFile
采集指定文件中的Prometheus指標。
采集進程狀態指標
默認會采集主機上的進程監控數據。
Node-Exporter 服務端口
默認端口9100。
Metric 采集間隔(單位/秒)
采集數據的時間間隔,默認為15秒。
自動配置安全組
默認打開。
單擊確定,等待1~2分鐘即可完成ECS主機監控指標接入。
接入成功后,如果監控大盤沒有數據,需要確認ECS的安全組在入方向需要允許100.64.0.0/10和192.168.0.0/18網段對9100和9256的訪問權限,查看ECS的安全組詳情,請參見查詢安全組。9100是node-exporter的默認端口,9256是process-exporter的默認端口,具體端口需要根據您自身配置進行調整。
步驟二:查看監控大盤
登錄ARMS控制臺。
在左側導航欄單擊接入管理。
在接入管理頁面的已接入環境頁簽中,選擇ECS環境。
在ECS環境列表中,單擊目標環境名稱進入ECS環境詳情頁面。
在組件管理頁簽,單擊組件類型區域的大盤,即可查看內置的Grafana大盤。
步驟三:配置告警
登錄ARMS控制臺。
在左側導航欄單擊接入管理。
在接入管理頁面的已接入環境頁簽中,選擇ECS環境。
在ECS環境列表中,單擊目標環境名稱進入ECS環境詳情頁面。
在組件管理頁簽,單擊組件類型區域的告警規則,即可查看內置的告警規則。
內置的告警規則會產生告警事件,但不會進行告警通知。如果您希望將告警通知發送到郵件或其他平臺,可以單擊編輯配置通知方式。在告警配置頁面您也可以自定義告警閾值、持續時間、告警內容等,具體操作,請參見Prometheus告警規則。
在極簡模式下,您可以設置告警的通知對象、通知時段和重復策略。