概述
當網站訪問很慢或無法訪問時,若已經排除顯著的問題,而使用ping命令檢測到有明顯丟包時,建議您做鏈路測試。在Windows環境中,推薦優先使用WinMTR工具,或者tracert命令行進行鏈路測試以判斷問題來源。通常情況下,鏈路測試步驟如下:
- 利用鏈路測試工具探測網絡狀況和服務器狀態。
- 根據鏈路測試結果分析處理。
詳細信息
阿里云提醒您:
- 如果您對實例或數據有修改、變更等風險操作,務必注意實例的容災、容錯能力,確保數據安全。
- 如果您對實例(包括但不限于ECS、RDS)等進行配置與數據修改,建議提前創建快照或開啟RDS日志備份等功能。
- 如果您在阿里云平臺授權或者提交過登錄賬號、密碼等安全信息,建議您及時修改。
WinMTR工具
mtr(My traceroute)作為一款網絡測試工具,集成了tracert與ping這兩個命令的圖形界面。ping與tracert通常被用于檢測網絡狀況和服務器狀態,具體說明如下。
命令名稱 | 具體說明 |
---|---|
ping | 送出封包到指定的服務器。如果服務器有回應就會傳送回封包,并附帶返回封包來回的時間 |
tracert | 返回從用戶的電腦到指定的服務器中間經過的所有節點(路由)以及每個節點的回應速度。 |
WinMTR是mtr工具在Windows環境下的圖形化實現,適合Windows下做路由追蹤及ping測試。WinMTR默認發送ICMP數據包進行探測,無法切換。
相比tracert命令行工具,WinMTR能避免節點波動對測試結果的影響,測試結果更正確。Windows環境下,建議優先使用WinMTR進行鏈路測試。下載WinMTR工具。
- 下載WinMTR工具后,直接解壓運行。運行程序后,在 Host 字段輸入目標服務器域名或IP。
- 單擊 Start 開始測試。開始測試后,相應按鈕變成了 Stop。
- 運行一段時間后,單擊 Stop 停止測試。
說明:您可以多測試幾分鐘,測試結束后,將結果導出。
常見可選參數說明
- Copy Text to clipboard:將測試結果以文本格式復制到粘貼板。
- Copy HTML to clipboard:將測試結果以HTML格式復制到粘貼板。
- Export TEXT:將測試結果以文本格式導出到指定文件。
- Export HTML:將測試結果以HTML格式導出到指定文件。
- Options:為可選參數。具體包括以下參數。
- Interval(sec):每次探測的間隔(過期)時間,默認為1秒。
- Ping size(bytes):ping 探測所使用的數據包大小,默認為64字節。
- Max hosts in LRU list:LRU列表支持的最大主機數,默認值為128。
- Resolve names:通過反查IP以域名顯示相關節點。
WinMTR運行后的返回結果說明
默認配置下,WinMTR測試結果說明如下。
- 第一列(Hostname):到目標服務器要經過的每個節點主機IP或域名。
- 第二列(Nr):節點編號。
- 第三列(Loss%):節點丟包率。ping數據包回復失敗的百分比,由此可判斷哪個節點(線路)出現故障,是服務器所在機房還是國際路由干路。
- 第四列(Sent):已發送的數據包數量。
- 第五列(Recv):已成功接收的數據包數量。
- 第六、七、八、九列(Best 、Avg、Worst、Last):分別是回應時間的最小值、平均值、最大值和最后一個數據包的回應時間。
tracert命令行工具
tracert (Trace Route) 是Windows自帶的網絡診斷命令行實用程序,用于跟蹤Internet協議(IP)數據包傳送到目標地址時經過的路徑。
tracert通過向目標地址發送ICMP數據包來確定到目標地址的路由。在這些數據包中,tracert使用了不同的IP生存期 (TTL) 值。由于要求沿途的路由器在轉發數據包前至少必須將TTL減少1,因此TTL實際上相當于一個躍點計數器 (hop counter)。當某個數據包的TTL達到零時,相應節點就會向源計算機發送一個ICMP超時的消息。tracert第一次發送TTL為1的數據包,并在每次后續傳輸時將TTL增加1,直到目標地址響應或達到TTL的最大值。中間路由器發送回來的ICMP超時消息中包含了相應節點的信息。
- 在桌面底部單擊 開始 菜單,選擇 運行。
- 打開運行框后,在框中輸入 cmd,并單擊 確定。
- 在命令運行界面中,輸入 tracert ,按回車鍵后,界面將顯示tracert的用法說明。
-
根據具體用法,輸入待跟蹤的目標地址,示例如下。
C:\> tracert -d 223.5.5.5
通過最多 30 個躍點跟蹤到 223.5.5.5 的路由
1 * * * 請求超時。
2 9 ms 3 ms 12 ms 192.X.X.20
3 4 ms 9 ms 2 ms 111.X.X.41
4 9 ms 2 ms 1 ms 111.X.X.197
5 11 ms * * 211.X.X.57
6 3 ms 2 ms 2 ms 211.X.X.62
7 2 ms 2 ms 1 ms 42.X.X.190
8 32 ms 4 ms 3 ms 42.X.X.238
9 * * * 請求超時。
10 3 ms 2 ms 2 ms 223.5.5.5
分析鏈路測試結果
以如下鏈路測試結果示例圖為基礎進行闡述。
- 判斷各區域是否存在異常,并根據各區域的情況分別處理。
-
區域A:客戶端本地網絡,即本地局域網和本地網絡提供商網絡。針對該區域異常,客戶端本地網絡相關節點問題,請對本地網絡進行排查分析;本地網絡提供商網絡相關節點問題,請向當地運營商反饋。
-
區域B:運營商網絡。針對該區域異常,可根據異常節點IP查詢歸屬運營商,然后直接或通過阿里云售后技術支持,向相應運營商反饋問題。
-
區域C:目標服務器本地網絡,即目標主機歸屬網絡提供商網絡。針對該區域異常,需要向目標主機歸屬網絡提供商反饋問題。
-
-
結合Avg(平均值)和StDev(標準偏差),判斷各節點是否存在異常。
- 若StDev很高,則同步觀察相應節點的Best和Worst,來判斷相應節點是否存在異常。
- 若StDev不高,則通過Avg來判斷相應節點是否存在異常。
注意:上述StDev高或者不高,并沒有具體的時間范圍標準。而需要根據同一節點其它列的延遲值大小來進行相對評估。比如,如果Avg為30ms,那么,當StDev為25ms,則認為是很高的偏差。而如果Avg為325ms,則同樣的StDev為25ms,反而認為是不高的偏差。
-
查看節點丟包率,若“Loss%”不為零,則說明這一跳路由的網絡可能存在問題。導致節點丟包的原因通常有兩種。
- 人為限制了節點的ICMP發送速率,導致丟包。
- 節點確實存在異常,導致丟包。
-
確定當前異常節點的丟包原因。
-
若隨后節點均沒有丟包,說明當前節點丟包是由于運營商策略限制所致,可以忽略。如前文鏈路測試結果示例圖中的第2跳路由的網絡所示。
-
若隨后節點也出現丟包,說明當前節點存在網絡異常,導致丟包。如前文鏈路測試結果示例圖中的第5跳路由的網絡所示。
說明:前述兩種情況可能同時發生,即相應節點既存在策略限速,又存在網絡異常。對于這種情況,若當前節點及其后續節點連續出現丟包,而且各節點的丟包率不同,則通常以最后幾跳路由的網絡的丟包率為準。如前文鏈路測試結果示例圖所示,在第5、6、7跳路由的網絡均出現了丟包。所以,最終丟包情況,以第7跳的40%作為參考。
-
-
通過查看是否有明顯的延遲,來確認節點是否存在異常。通過如下兩個方面進行分析。
-
若某一跳路由的網絡之后延遲明顯陡增,則通常判斷該節點存在網絡異常。如前文鏈路測試結果示例圖所示,從第5跳路由的網絡之后的后續節點延遲明顯陡增,則推斷是第5跳路由的網絡節點出現了網絡異常。
注:高延遲并不一定完全意味著相應節點存在異常,延遲大也有可能是在數據回包鏈路中引發的,建議結合反向鏈路測試一并分析。
-
ICMP策略限速也可能會導致相應節點的延遲陡增,但后續節點通常會恢復正常。如前文鏈路測試結果示例圖所示,第3跳路由的網絡有100%的丟包率,同時延遲也明顯陡增。但隨后節點的延遲馬上恢復了正常。所以判斷該節點的延遲陡增及丟包是由于策略限速所致。
-
操作建議
- 若數據包在目標地址出現了100%的丟包,建議對目標服務器的安全策略配置進行排查。
- 若數據包出現循環跳轉,導致無法到達目標服務器,建議聯系相應節點歸屬運營商處理。
- 若數據包在跳轉后無法收到任何反饋,建議結合反向鏈路測試作進一步確認,并聯系相應節點歸屬運營商進行處理。
- 阿里云中國內地機房和其他國家或地區有網絡通信的專線,為降低通信時候的丟包率,推薦使用高速通道。
- 若主機掉包和延遲非常高,建議做WinMTR雙向測試,即本地到服務器的和服務器到本地的測試。無法遠程登錄時,請通過管理終端進行登錄。
適用于
- 云服務器 ECS