為提高應用高可用性,可以結合使用PTS與AHAS。首先使用PTS壓測評估系統瓶頸,然后使用AHAS以系統瓶頸指標為閾值設置流控、降級、系統或隔離規則,保障系統穩定性。
背景信息
隨著應用系統的頻繁迭代,保障應用系統的穩定性越來越重要。主要原因如下:
- 隨著應用上云的普及,單機架構向分布式架構演進,系統之間的依賴關系、調用鏈路變的十分復雜。
- 業務發展帶來的服務端迭代越來越快,在性能管理上很難有足夠的投入,經常會產生未知的隱患導致性能的大幅下降。
行業痛點:
- 對系統提供服務的能力不清楚,不知道如何進行壓測,寫腳本門檻太高。
- 壓測工具維護很麻煩,壓測流量不穩定,施壓能力有限。
- 業務接口沒有流量保護,瞬間流量超過上限就會壓垮系統。
- 下游依賴服務不穩定,經常調用超時影響核心接口,影響系統穩定性。
- 非關鍵業務調用占用太多資源,核心業務的穩定性。
解決方案
借助于阿里巴巴內部多年高可用體系沉淀下來的經驗,結合使用性能測試PTS和應用高可用服務AHAS,即可從壓測、流量防護兩個維度協助保障應用的穩定性。PTS是具備強大分布式壓測能力的SaaS壓測平臺,可模擬海量用戶的真實業務場景,全方位驗證業務站點的性能、容量和穩定性。AHAS則以流量為切入點,從流量控制、熔斷降級、熱點防護和系統保護等多個維度來幫助保障服務的穩定性,同時提供秒級的流量監控分析功能。
產品優勢
功能強大
- 全SaaS化形態,無需額外安裝和部署。
- 無需安裝的云端錄制器,更適合移動端App場景。
- 數據工廠功能,0編碼實現壓測的API/URL的請求參數格式化。
- 復雜場景的全可視化編排,支持登錄態共享、參數傳遞、業務斷言,同時可擴展的指令功能支持多形態的思考時間、流量蓄洪等。
- 獨創的RPS /并發多壓測模式。
- 流量支持動態秒級調整,百萬QPS亦可瞬時脈沖。
- 強大的報表功能,將壓測客戶端的實時數據做多維度細分展示和統計,同時自動生成報告供查閱和導出。
- 壓測API/場景均可調試,壓測過程提供日志明細查詢。
流量真實
- 流量來源于全國上百城市覆蓋各運營商(可拓展至海外),真實模擬最終用戶的流量來源,相應的報表、數據更接近用戶真實體感。
- 施壓能力無上限,最高支持千萬RPS的壓測流量。
專業的防護手段
- 入口流量控制:按照服務容量進行流量控制,常用于應用入口。例如Gateway、前端應用、服務提供方等。
- 熱點隔離:將熱點和普通流量隔離出來,避免無效熱點搶占正常流量的容量。
- 對依賴方隔離、降級:對應用和應用之間、應用內部采用隔離、降級手段,將不穩定的依賴的對應用的影響減至最小,從而保證應用的穩定性。
- 系統防護:AHAS應用防護可以根據系統的能力(例如Load、CPU使用率等)來動態調節入口的流量,保證系統穩定性。
豐富的流量監控
- 秒級流量分析功能,實時推送動態規則。
- 流量大盤編排,清晰查看核心業務場景。
靈活的接入方式
提供SDK、Java Agent以及容器接入等多種方式,低侵入快速使用。
經典案例
PTS和AHAS組成的壓測流控方案,不僅在阿里內部淘寶、天貓等電商領域有著廣泛的應用,在互聯網金融、在線教育、游戲、直播行業和其他大型政央企行業也有著大量的實踐。
使用方法
- 開通服務并購買資源包。
- 容量評估。
- 使用PTS快速構建高仿真業務壓測并發起壓測,詳情請參見如何在一分鐘內發起壓測?。
壓測過程中可以在場景詳情頁簽中查看各API的壓測信息。例如本示例中選課提交 API出現非2xx錯誤5/s。
- 在PTS控制臺觀察壓測發起側(客戶側)及服務側(云監控)的端到端全監控,詳情請參見查看監控詳情,了解壓測下的業務表現和各核心系統的性能水位情況。
- 使用PTS快速構建高仿真業務壓測并發起壓測,詳情請參見如何在一分鐘內發起壓測?。
- 設置流控、降級、系統和隔離規則。
- 配置流量大盤,詳情請參見創建流量大盤。
通過監控詳情提供的多方位監控指標,動態調整接口的規則閾值并實時推送。
相關文檔