本文介紹在使用阿里云云監控產品監控OSS數據時遇到的一些常見問題及解決方案。
OSS和云監控是兩個獨立的產品,OSS將數據推送至云監控,由云監控產品進行分析處理。 OSS控制臺上看到的存儲容量監控以及帶寬流量監控來自于云監控產品的數據。
OSS的數據推送到云監控會延遲2~3小時,同時云監控在接收OSS數據時存在窗口期,單次數據推送的時間間隔不能超過5分鐘。如果OSS推送數據超過5分鐘,則云監控過會拒絕接收這個過期數據,同時也不支持補推。因此,不建議根據云監控的數據計算您的費用。如需核對費用,建議聯系技術支持。
案例:報警規則的狀態出現“數據不足”
問題分析:此問題可以查看用戶概況的服務監控總覽內的數據。如果無數據產生,則會出現數據不足的情況。
案例:云監控上發現上傳下載延遲
問題分析:云監控平臺上查看到的數據是云監控產品節點發起探測請求獲得的數據,并不代表真實用戶環境。
解決方案:云監控平臺監控到訪問延遲較大的情況,可通過如下步驟排查:
確認客戶端訪問是否真的有延遲。
若用戶訪問對應的Bucket也出現延遲的情況,需通過抓包獲取訪問數據分析。
您也可以通過日志分析對應時間內的訪問數據,確認是否有訪問延遲的情況。
案例:某公司自己的監控系統發現OSS請求數據有延遲
某公司因業務需求搭建了一套監控系統監控OSS的數據,發現訪問OSS延遲較大,可通過如下步驟排查:
排查公司網絡是否正常,可通過ping其他網站的形式測試延遲。
在OSS同地域創建一個ECS服務器去訪問OSS測試是否有延遲。
將上傳延遲的OSS requestID發送給技術支持,查看出現問題時訪問是否存在延遲。
通過抓包獲取上傳數據進行分析,可通過如下參數分析數據包:
tcpdump -i <出口網卡> -s0 ( 本機出口IP and OSS域名 ) -w result.pcap
案例:有效請求率降低
問題現象:云監控出現“對象存儲 OSS (<)Bucket=p2xxx,userId=135114002(>),有效請求率(30.51<90% ),持續時間0分鐘”的報錯。
解決方案:異常請求率是通過2xx+3xx
總體數量計算得出,您可以先查看云監控的 OSS 控制臺統計的2xx+3xx
以及其他異常狀態碼的占比,確認是否因異常狀態碼增加導致的有效請求率下降。您也可以通過開通OSS日志分析請求行為。
案例:云監控報警404
問題現象:云監控出現“對象存儲OSS實例:Bucket=***-ali,userId=197*****745,資源不存在錯誤請求數于11:45恢復正常,值為30次,持續時間5分鐘”的報錯。
問題分析:原因是Bucket資源不存在導致的報警,屬于正常的響應,并非是異常狀態。
案例:云監控出現NoSuchWebSiteConfigration
問題分析:此問題是客戶端在請求OSS數據時加載的功能配置不存在,導致出現404的報錯,200的狀態碼是用戶已經在OSS上配置的功能模塊,并非異常現象。
案例:OSS控制臺API統計圖無數據
問題分析:API的監控數據都是隔天顯示,例如10月13日才能查看10月12日產生的完整數據。
案例:通過OSS監控計費核對賬單發現數據不準確
OSS的數據推送到云監控會延遲1~2小時,同時云監控在接收OSS數據時存在窗口期,單次數據推送的時間間隔不能超過5分鐘。如果OSS推送數據超過5分鐘,那么云監控會拒絕接收這個過期數據,同時也不支持補推。所以,不建議使用云監控的數據和您的賬號進行對賬,因為數據并不準確,您可以通過以下方式對賬:
提前開啟OSS日志,然后將OSS日志統計情況與賬單核對。
開啟OSS日志分析功能,導入OSS日志后通過日志分析處理后直接查看結果。
案例:云監控顯示某個時間段的有效請求率下降為0,但是OSS的log以及控制臺的監控數據都是正常
問題分析:云監控有效請求率的計算公式是:100%-(2xx+3xx)/總請求數量。發現類似情況可查看OSS控制臺或OSS log有沒有異常即可。
原因是OSS將整個集群日志推送到云監控時超過了云監控的接收窗口期,而云監控不支持補推,所以導致數據為0 。