本文為您介紹資源穩定性最佳實踐的業務背景、應用場景,以及合規包中的默認規則。
業務背景
控風險是目前云上客戶非常關注的主旋律之一。很多企業選擇阿里云是因為能夠借助阿里云平臺的高可用性來提升業務連續性。如何高效、全面地幫助云上客戶發現云資源配置方面存在的風險,是提升企業業務連續性非常關鍵的組成部分。
這里為您列舉一個因云資源配置不當導致系統故障的案例,具體如下:
某企業的一個核心系統使用基礎版RDS數據庫(基礎版RDS數據庫實例適用于測試環境),日常由于業務波動較小,未出現問題。在企業大促期間,由于業務量上漲了2~3倍,數據實時處理量翻了10倍以上。數據庫實例響應慢,影響業務正常運行。最終發現是數據庫實例配置問題,通過升級規格,問題得到解決。
應用場景
基于技術經驗和云服務使用規范,配置審計對客戶核心資源進行靜態配置合理性巡檢,生成不合理配置檢測結果,您可以下載檢測報告并對不合理配置進行修正,例如:升級實例規格,調整配置等。
靜態配置即云資源配置項,例如:實例規格、實例部署可用區等。
資源穩定性最佳實踐應用場景的使用流程如下圖所示。
默認規則
規則名稱 | 規則描述 |
如果沒有開啟日志備份,當本地日志丟失會出現無法恢復數據的風險。如果RDS實例開啟日志備份,視為"合規"。 | |
使用獨享類型的RDS實例規格,視為“合規”。 | |
RDS Mysql類型實例開啟SQL審計且日志保留天數大于等于指定值,視為“合規”。默認值:180天。 | |
RDS實例為多可用區實例,視為“合規”。 | |
RDS實例未配置公網地址,視為“合規”。生產環境的RDS實例不推薦配置公網直接訪問,容易被黑客攻擊。 | |
RDS實例的可維護時間段在參數指定的其中一個時間段范圍內,視為“合規”。如果企業業務高峰時段與維護時間段有重疊,可能會對業務造成影響。 | |
RDS實例開啟刪除保護,視為“合規”。付費類型為包年包月的實例不支持該功能,視為“不適用”。 | |
RDS實例已開啟安全白名單,且安全白名單中不包含0.0.0.0/0,視為“合規”。 | |
Redis預付費實例到期時間距離檢查時間大于設置的天數,視為“合規”。默認值:30天。開啟自動續費的實例視為“合規”。后付費資源實例不適用本規則,視為“不適用”。 | |
Redis實例自動備份的時間段在參數指定的其中一個時間段范圍內,視為“合規”。如果企業業務高峰時段與Redis實例備份時間段有重疊,可能會對業務造成影響。 | |
Redis實例IP白名單未設置為0.0.0.0/0,視為“合規”。 | |
Redis實例已設置禁用高風險命令,視為“合規”。 | |
Redis實例的架構類型為集群版,視為“合規”。 | |
MongoDB預付費集群到期時間距離檢查時間大于設置的天數,視為“合規”。默認值:30天。開啟自動續費的集群,視為“合規”。 | |
MongoDB實例開啟日志備份,視為“合規”。 | |
MongoDB實例規格非共享型實例,視為“合規”。 | |
MongoDB實例IP白名單未設置為0.0.0.0/0,視為“合規”。 | |
對于預付費資源,需要提前續費,避免出現因費用問題停機。預付費實例到期時間距離檢查時間大于設置的天數,視為“合規”。默認值:30天。開啟自動續費的實例,視為“合規”。后付費資源實例不適用本規則,視為“不適用”。 | |
使用的PolarDB產品系列為集群版或者多主架構集群版,視為“合規”。謹慎使用單節點版數據庫,故障恢復慢。 | |
PolarDB集群的可維護時間段在參數指定的其中一個時間段范圍內,視為“合規”。如果企業業務高峰時段與維護時間段有重疊,可能會對業務造成影響。 | |
PolarDB實例IP白名單未設置為0.0.0.0/0,視為“合規”。 | |
NAT網關的SNAT和DNAT未同時使用同一個EIP,視為“合規”。VPC NAT網關不適用本規則,視為“不適用”。 | |
NAT網關中SNAT條目綁定的多個EIP,加入共享帶寬包或者所綁定的EIP帶寬峰值設置一致,視為“合規”。VPC NAT網關不適用本規則,視為“不適用”。 | |
SLB負載均衡的所有運行中的監聽都開啟了健康檢查,視為“合規”。 | |
ALB負載均衡的所有監聽和轉發規則均設置了健康檢查,視為“合規”。 | |
ALB負載均衡所有監聽關聯的默認轉發規則都至少添加參數指定數量的后端服務器,視為“合規”。默認至少要添加一臺服務器視為“合規”。 | |
對于預付費資源,需要提前續費,避免出現因費用問題停機。預付費實例到期時間距離檢查時間大于設置的天數,視為“合規”。默認值:30天。開啟自動續費的實例視為“合規”。后付費資源實例不適用本規則,視為“不適用”。 | |
開啟刪除保護功能,可以防止誤操作導致實例被釋放。如果已配置則視為"合規"。 | |
SLB實例開啟釋放保護,視為“合規”。 | |
SLB實例規格在指定的規格列表中,視為“合規”。建議使用滿足性能要求的負載均衡實例,謹慎使用性能共享型等無法保證性能指標的實例。 | |
云企業網實例下所有跨地域連接分配的帶寬大于參數指定值,視為“合規”。參數默認值:1Mbps。 | |
云企業網實例關聯的VBR都設置了健康檢查,視為“合規”。 | |
同地域內所有交換機不存在重復的IP地址段,視為“合規”。 | |
ECS實例狀態不是已停止狀態,視為“合規”。 | |
對于預付費資源,需要提前續費,避免出現因費用問題停機。預付費實例到期時間距離檢查時間大于設置的天數,視為“合規”。默認值:30天。開啟自動續費的實例視為“合規”。后付費資源實例不適用本規則,視為“不適用”。 | |
自動快照策略中設置的快照創建時間點在參數指定的時間點范圍內,視為“合規”。創建快照會暫時降低塊存儲I/O性能,一般性能差異在10%以內,出現短暫瞬間變慢。建議您選擇避開業務高峰的時間點。 | |
當安全組入網網段設置為0.0.0.0/0時,指定協議的端口范圍不包含指定風險端口,視為“合規”。若入網網段未設置為0.0.0.0/0時,即使端口范圍包含指定的風險端口,也視為“合規”。如果檢測到的風險端口被優先級更高的授權策略拒絕,視為“合規”。云產品或虛商所使用的安全組視為“不適用”。 | |
為域名設置了CDN緩存和過期時間,視為合規。 | |
CDN域名設置源站域名為OSS域名時,設置了源站類型為OSS,視為“合規”。 | |
Kafka實例公網IP白名單未設置為對所有IP開放,視為“合規”。 | |
Elasticsearch實例未開啟公網訪問,或者白名單未設置為對所有IP開放,視為“合規”。 | |
Elasticsearch實例未開啟Kibana公網訪問,或者白名單未設置為對所有IP開放,視為“合規”。 | |
如果沒有開啟版本控制,會導致數據被覆蓋或刪除時無法恢復。如果開啟版本控制則視為"合規"。 | |
OSS存儲空間的ACL策略禁止公共讀寫,視為“合規”。 | |
未使用參數指定的ECS規格族實例,視為“合規”。參數默認值為已停售或者共享型的實例規格族。 | |
未使用參數指定的Elasticsearch規格實例,視為“合規”。 | |
使用參數指定系列的RDS實例,視為“合規”。參數默認值為集群版或高可用版。 | |
使用專業版的托管類型集群,視為“合規”。集群類型非托管版的集群不適用本規則,視為“不適用”。 | |
使用實例類型為企業版的Redis實例,視為“合規”。 | |
使用多可用區的MongoDB實例,視為“合規”。 | |
使用鉑金版RocketMQ實例,視為“合規”。 | |
企業可以規范企業內部的OS版本,要求生產環境的主機都必須統一操作系統版本。同時對于那些官方停止維護的操作系統需要及時升級,以免出現安全漏洞。ECS實例使用的操作系統英文名稱在指定的白名單范圍中,或者操作系統英文名稱不在指定的黑名單范圍中,視為“合規”。 | |
Elasticsearch實例所使用的版本未在參數指定的不推薦版本范圍內,視為“合規”。 | |
PolarDB當前數據庫小版本狀態為 | |
ACK集群已升級到最新版本,視為“合規”。 | |
Redis實例已升級至最新小版本,視為“合規”。 | |
ECS實例開啟釋放保護,視為“合規”。 | |
彈性公網IP開啟刪除保護,視為“合規”。服務賬號創建或者預付費類型的EIP不支持開啟刪除保護,視為“不適用”。 | |
PolarDB集群開啟刪除保護,視為“合規”。 | |
ACK集群開啟釋放保護,視為“合規”。 | |
Redis實例開啟釋放保護,視為“合規”。 | |
MongoDB實例開啟釋放保護,視為“合規”。 | |
ADB集群的可維護時間段在參數指定的其中一個時間段范圍內,視為“合規”。 | |
ECI彈性實例容器組掛載了數據卷,視為“合規”。 | |
Elasticsearch實例開啟了自動備份,視為“合規”。 | |
ADB集群開啟日志備份,視為“合規”。 | |
PolarDB集群二級備份保留周期大于等于指定天數,視為“合規”。參數默認值30天。未開啟二級備份或備份保留周期小于指定天數視為“不合規”。 | |
Redis實例開啟增量備份,視為“合規”。本規則只適用于類型為Tair的實例,非Tair類型的實例視為不適用。 | |
ECS磁盤設置了自動快照策略,視為“合規”。 | |
使用多可用區的Elasticsearch實例,視為“合規”。 | |
SLB實例為多可用區,并且SLB實例下所有監聽使用的服務器組中添加了多個可用區的資源,視為“合規”。 | |
SLB實例為多可用區實例,視為“合規”。 | |
PolarDB集群開啟存儲熱備集群,數據分布在多個可用區,視為“合規”。 | |
Redis實例為多可用區實例,視為“合規”。 | |
如果沒有開啟同城冗余存儲,會導致當出現某個機房不可用時,OSS服務無法提供一致性服務,影響數據恢復目標。OSS存儲空間開啟同城冗余存儲,視為“合規”。 | |
使用多可用區的MongoDB實例,視為“合規”。 | |
共享帶寬實例的到期時間距離當前時間大于參數設定的時間范圍,視為“合規”。默認值:30天。本規則只適用于預付費資源,后付費資源實例視為“不適用”。 | |
對于預付費資源,需要提前續費,避免出現因費用問題停機。預付費實例到期時間距離檢查時間大于設置的天數,視為“合規”。默認值:30天。后付費資源實例不適用本規則,視為“不適用”。 | |
堡壘機實例的到期時間距離當前時間大于參數設定的時間范圍,視為“合規”。默認值:30天。 | |
彈性公網IP的到期時間距離當前時間大于參數設定的時間范圍,視為“合規”。默認值:30天。后付費資源實例不適用本規則,視為“不適用”。 | |
ADB數倉版實例的到期時間距離當前時間大于參數設定的時間范圍,視為“合規”。默認值:30天。開啟自動續費的實例視為“合規”。本規則只適用于預付費資源,后付費資源實例視為“不適用”。 | |
云企業網帶寬包的到期時間距離當前時間大于參數設定的時間范圍,視為“合規”。默認值:30天。 | |
PolarDB-X1.0實例的到期時間距離當前時間大于參數設定的天數,視為“合規”。默認值:30天。本規則只適用于預付費資源,后付費資源實例視為“不適用”。 | |
PolarDB-X2.0實例的到期時間距離當前時間大于參數設定的天數,視為“合規”。默認值:30天。本規則只適用于預付費資源,后付費資源實例視為“不適用”。 | |
Ddos實例的到期時間距離當前時間大于參數設定的天數,視為“合規”。默認值:30天。 |