附錄:健康狀態支持產品及說明
本文介紹云服務診斷健康狀態已支持的產品及詳細說明,如需更多幫助請查看云服務診斷目錄下其他幫助文檔。歡迎加入釘釘交流群(群號:86570007290)與產品團隊分享您的問題和觀點。
健康狀態已支持的產品及詳情如下表,更多產品及資源的健康狀態將陸續上線,敬請期待。
分類 | 產品名稱 | 縮寫 | 資源類型 | 不可用定義 | 不可用判斷標準 | 周期 |
計算 | 云服務器 ECS | ECS | 實例 | 某時段內ECS實例受到底層宿主機、存儲、網絡等限制,導致性能受到影響或降級,或遭到OOM出現藍屏、夯住(Hang)等問題,視為該時段內該實例服務不可用,標記異常。可通過重啟實例嘗試恢復,或提交工單上報故障 | ECS對實例進行狀態監測,并通過云監控系統事件上報可用性狀態的變化。事件名稱:Instance:HealthStatusChange,當healthStatus 變更為 Impaired時為不可用 | 狀態變化時記錄一次,精確到秒 |
函數計算 | FC | 服務 | 某時段內FC服務請求錯誤率(HTTP狀態碼為500的請求/全部請求)>10%則視為該時段內該服務不可用,標記異常。若未及時恢復,可提交工單上報故障 | FC通過云監控時序指標上報請求失敗情況。 Namespace: acs_fc MetricName:ServiceServerErrors 服務服務端錯誤數 MetricName:ServiceServerErrorsRate 服務服務端錯誤數占總調用數比例 ServiceServerErrorsRate > 10%為不可用。但每分鐘ServiceServerErrors < 10時不計算錯誤率,默認為正常 | 每小時記錄一次 | |
容器 | 容器服務 Kubernetes 版 | ACK | 集群 | 某時段內客戶所有試圖與指定的 ACK Pro 集群 Kubernetes API 服務建立連接并使用服務的連續嘗試均失敗,則視為該時段內該 ACK Pro 集群服務不可用,標記異常。若未及時恢復,可提交工單上報故障(注意:ACK控制臺集群狀態的“不可用”指因集群API Server的CLB實例被釋放導致的集群無法正常使用,與健康狀態含義不同。因此可能出現健康狀態正常但ACK控制臺集群狀態為不可用的情況) | ACK對集群進行狀態監測,并通過日志記錄可用性狀態的變化。 Project:meta-cluster-sla-cn-beijing等(每個可用區獨立);sli_level=unavailable為不可用,start_timestamp - end_timestamp為不可用時段(>=5分鐘才標記異常) | 狀態變化時記錄一次,精確到秒 |
存儲 | 對象存儲 | OSS | Bucket | 某時段內OSS HTTP請求錯誤率(狀態碼為5XX的失敗請求/全部請求)>10%則視為該時段內該OSS服務不可用,標記異常。若未及時恢復,可提交工單上報故障 | OSS對HTTP請求狀態碼進行監測和計算,并通過云監控時序指標上報可用性狀態。Namespace:acs_oss_dashboard,MetricName:Availability<90%時為不可用 | 每小時記錄一次 |
塊存儲 | EBS | 磁盤 | 某時段內EBS無法進行讀寫或讀寫性能嚴重下降,則視為該時段內該EBS實例不可用,標記異常。若未及時恢復,可提交工單上報故障 | EBS對磁盤進行狀態監測,并通過云監控系統事件上報可用性狀態的變化。Product: ecs;事件名稱:Disk:ErrorDetected:Executing(本地磁盤開始出現損壞告警)或Disk:Stalled:Executing(磁盤性能開始受到嚴重影響),為不可用 | 狀態變化時記錄一次,精確到秒 | |
文件存儲 NAS | NAS | 文件系統 | 某時段內客戶所有試圖與指定的 NAS 單個文件系統實例建立連接的連續嘗試均失敗,則視為該時段內該 NAS 單個文件系統實例服務不可用,標記異常。若未及時恢復,可提交工單上報故障 | NAS對文件系統實例進行狀態監測,并通過日志記錄可用性狀態的變化。 Project:ali-aliyun-nas;Slilevel=unavailable為不可用,startTime - EndTime為不可用時段 | 狀態變化時記錄一次,精確到秒 | |
云備份 | Cloud Backup | 存儲庫 | 某時段內云備份的備份任務失敗且失敗原因為“備份倉庫不可用”,或云備份的恢復任務失敗且失敗原因為“備份倉庫不可用”時則視為該時段內云備份不可用,標記異常。若未及時恢復,可提交工單上報故障 | 云備份對備份倉庫實例(存儲庫)進行狀態監測,并通過日志記錄可用性狀態的變化。 Project:hbr;sli_level=unavailable為不可用,start_timestamp - end_timestamp為不可用時段 | 狀態變化時記錄一次,精確到秒 | |
網絡與CDN | CDN | CDN | 域名 | 某時段內CDN服務請求錯誤率(因CDN系統原因導致的域名返回的5XX的失敗請求/全部請求)>10%則視為該時段內該CDN服務不可用,標記異常。若未及時恢復,可提交工單上報故障 | CDN對服務請求狀態碼進行監測,并通過云監控時序指標(Namespace: acs_cdn)上報5XX狀態碼占比(MetricName:code5xx)及QPS(MetricName:QPS)。code5xx>10%時為不可用,但每分鐘平均請求(QPS*60)<40時不計算錯誤率,默認為正常 | 每小時記錄一次 |
全站加速DCDN | DCDN | 域名 | 某時段內DCDN服務請求錯誤率(因DCDN系統原因導致的域名返回的5XX的失敗請求/全部請求)>10%則視為該時段內該DCDN服務不可用,標記異常。若未及時恢復,可提交工單上報故障 | DCDN對服務請求狀態碼進行監測,并通過云監控時序指標(Namespace: acs_dcdn)上報5XX狀態碼占比(MetricName:code_ratio_5)及QPS(MetricName:dcdn_qps)。code_ratio_5>10%時為不可用,但每分鐘平均請求(dcdn_qps*60)<40時不計算錯誤率,默認為正常 | 每小時記錄一次 | |
彈性公網 IP | EIP | 實例 | 某時段內 EIP 實例出方向所有數據包都在阿里云出口網關設備丟棄時,則視為該時段內該 EIP 實例服務不可用,標記異常。若未及時恢復,可提交工單上報故障 | EIP對實例進行狀態監測,并通過日志記錄可用性狀態的變化。 Project:metric-eip-ops-cn-beijing等(每個可用區獨立);sli_level=unavailable為不可用,begin_ts - end_ts為不可用時段 | 狀態變化時記錄一次,精確到秒 | |
云數據傳輸 | CDT | NA | 某時段內CDT提供的統一計費和出賬功能異常則視為該時段內CDT服務不可用,標記異常。可查看阿里云健康看板事件修復進展,或提交工單上報故障 | 云數據傳輸屬于全球服務,不區分地域及實例。其對服務進行狀態監測,并將可用性狀態同步至阿里云健康看板的非區域性-云數據傳輸 | 狀態變化時記錄一次,精確到秒 | |
安全 | 數字證書管理服務(原SSL證書) | SSL Certificate | NA | 某時段內客戶簽發證書驗證時候試圖鏈接/訪問證書產品的對應的CRL/OCSP服務時連接嘗試均失敗,則視為該時段內該數字證書管理服務的CRL/OCSP服務不可用,標記異常。可查看阿里云健康看板事件修復進展,或提交工單上報故障 | 數字證書管理服務屬于全球服務,不區分地域及實例。其對服務進行狀態監測,并將可用性狀態同步至阿里云健康看板的非區域性-數字證書管理服務(原SSL證書) | 狀態變化時記錄一次,精確到秒 |
Web應用防火墻 | WAF | 防護對象 | 某時段內WAF服務請求錯誤率(因WAF系統原因導致的域名返回狀態碼為5XX和4XX請求/全部請求)>10%則視為該時段內該服務不可用,標記異常。可查看阿里云健康看板事件修復進展,或提交工單上報故障 | Web應用防火墻屬于全球服務,不區分地域。其對服務進行狀態監測,并將可用性狀態同步至阿里云健康看板的非區域性-Web應用防火墻 | 狀態變化時記錄一次,精確到秒 | |
云安全中心 | Security Center | NA | 某時段內云安全中心服務請求錯誤率(因云安全中心系統原因導致的域名返回狀態碼為5XX的失敗請求/全部請求)>10%則視為該時段內該服務不可用,標記異常。若未及時恢復,可提交工單上報故障 | 云安全中心對服務請求進行狀態監測,并通過日志記錄失敗請求及成功請求。 Project:sas-sla-pop-aliyun-cn-sh; 5XX請求:error_count_5xx; 成功請求:success_count; 錯誤率= (error_count_5xx/(success_count+error_count_5xx))>10%時為不可用 | 每小時記錄一次 | |
內容安全 | Content Moderation | NA | 某時段內內容安全服務請求錯誤率(HTTP狀態碼為5XX的請求/全部請求)>10%則視為該時段內該服務不可用,標記異常。可查看阿里云健康看板事件修復進展,或提交工單上報故障 | 內容安全屬于全球服務,不區分地域及實例。其對服務進行狀態監測,并將可用性狀態同步至阿里云健康看板的非區域性-內容安全 | 狀態變化時記錄一次,精確到秒 | |
數據庫 | 云數據庫 RDS | RDS | 實例 | 某時段內客戶所有試圖與指定的RDS實例建立連接的連續嘗試均失敗,則視為該時段內該實例服務不可用,標記異常。可通過重啟實例嘗試恢復,或提交工單上報故障 | RDS對實例進行狀態監測,并通過云監控系統事件上報可用性狀態的變化。事件名稱:Instance_Failure_Start:故障開始,即不可用;Instance_Failure_End:故障結束,即恢復正常 | 狀態變化時記錄一次,精確到秒 |
云數據庫 MongoDB 版 | MongoDB | 實例 | 某時段內客戶所有試圖與指定的MongoDB實例建立連接的連續嘗試均失敗,則視為該時段內該實例服務不可用,標記異常。可通過重啟實例、組件或節點嘗試恢復,或提交工單上報故障 | MongoDB對實例進行狀態監測,并通過云監控系統事件上報可用性狀態的變化。事件名稱:Instance_Failure_Start:故障開始,即不可用;Instance_Failure_End:故障結束,即恢復正常 | 狀態變化時記錄一次,精確到秒 | |
云原生數據庫 PolarDB | PolarDB | 集群 | 某時段內客戶所有試圖與指定的PolarDB集群建立連接的連續嘗試均失敗,則視為該時段內該集群服務不可用,標記異常。可通過節點管理嘗試恢復,或提交工單上報故障 | PolarDB對集群進行狀態監測,并通過云監控系統事件上報可用性狀態的變化。事件名稱:Instance_Failure_Start:故障開始,即不可用;Instance_Failure_End:故障結束,即恢復正常 | 狀態變化時記錄一次,精確到秒 | |
云數據庫 Redis 版 | Redis | 實例 | 某時段內客戶所有試圖與指定的Redis實例建立連接的連續嘗試均失敗,則視為該時段內該實例服務不可用,標記異常。可通過重啟實例嘗試恢復,或提交工單上報故障 | Redis對實例進行狀態監測,并通過云監控系統事件上報可用性狀態的變化。事件名稱:Instance_Failure_Start:故障開始,即不可用;Instance_Failure_End:故障結束,即恢復正常 | 狀態變化時記錄一次,精確到秒 | |
其他 | 視頻直播 | LIVE | 域名 | 因視頻直播故障導致(1)FLV-HTTP/RTMP:維持鏈接20秒未返回數據;(2)HLS:5XX類錯誤 的請求視為失敗請求。某時段內錯誤率(失敗請求/全部請求)>20%則視為該時段內該視頻直播服務不可用,標記異常。若未及時恢復,可提交工單上報故障 | LIVE對服務請求進行監測,并通過云監控時序指標(Namespace: acs_videolive)上報返回碼5XX占比(MetricName:code5xx)及每秒訪問次數(MetricName:QPS)。 code5xx>20%時為不可用,但每分鐘總請求(QPS*60)<100時不計算錯誤率,默認為正常 | 每小時記錄一次 |
短信服務 | SMS | NA | 某時段內所有提交短信的有效號碼結果均為明確失敗(指短信(驗證碼、行業通知短信、推廣短信)提交至有效號碼終端導致的失敗),則視為該時段內該短信服務不可用,標記異常。可查看阿里云健康看板事件修復進展,或提交工單上報故障 | 短信服務屬于全球服務,不區分地域及實例。其對服務進行狀態監測,并將可用性狀態同步至阿里云健康看板的非區域性-短信服務 | 狀態變化時記錄一次,精確到秒 | |
語音服務 | VS | NA | 某時段內客戶所有調用發起語音外呼API接口的嘗試均失敗,則視為該時段內該語音服務不可用,標記異常。可查看阿里云健康看板事件修復進展,或提交工單上報故障 | 語音服務屬于全球服務,不區分地域及實例。其對服務進行狀態監測,并將可用性狀態同步至阿里云健康看板的非區域性-語音服務 | 狀態變化時記錄一次,精確到秒 | |
號碼隱私保護 | PNP | NA | 某時段內客戶所有調用發起號碼隱私保護的綁定API接口嘗試均失敗,則視為該時段內該號碼隱私保護服務不可用,標記異常。可查看阿里云健康看板事件修復進展,或提交工單上報故障 | 號碼隱私保護屬于全球服務,不區分地域及實例。其對服務進行狀態監測,并將可用性狀態同步至阿里云健康看板的非區域性-號碼隱私保護 | 狀態變化時記錄一次,精確到秒 | |
郵件推送 | Direct Mail | NA | 某時段內因阿里云郵件推送系統原因導致客戶所有有效請求(用戶連接到阿里云郵件推送服務器并驗證成功的請求)均發信失敗,則視為該時段內該郵件推送服務不可用,標記異常。可查看阿里云健康看板事件修復進展,或提交工單上報故障 | 郵件推送屬于全球服務,不區分地域及實例。其對服務進行狀態監測,并將可用性狀態同步至阿里云健康看板的非區域性-郵件推送 | 狀態變化時記錄一次,精確到秒 | |
阿里郵箱 | Alibaba Mail | NA | 某時段內客戶通過 SMTP、POP、IMAP或Webmail中任意一種方式收發郵件一直失敗,則視為該時段內該阿里郵箱服務不可用,標記異常。可查看阿里云健康看板事件修復進展,或提交工單上報故障 | 阿里郵箱屬于全球服務,不區分地域及實例。其對服務進行狀態監測,并將可用性狀態同步至阿里云健康看板的非區域性-阿里郵箱 | 狀態變化時記錄一次,精確到秒 | |
云解析DNS | DNS | 域名 | 某時段內客戶所有對云解析DNS服務器的域名查詢均失敗,則視為該時段內該云解析DNS實例服務不可用,標記異常。可查看阿里云健康看板事件修復進展,或提交工單上報故障 | 云解析DNS屬于全球服務,不區分地域。其對服務進行狀態監測,并將可用性狀態同步至阿里云健康看板的非區域性-云解析DNS | 狀態變化時記錄一次,精確到秒 |