日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

監測和診斷eRDMA

重要

本文中含有需要您注意的重要提示信息,忽略該信息可能對您的業務造成影響,請務必仔細閱讀。

對eRDMA進行監測和診斷可以幫助您及時發現和解決問題,確保系統安全,并有效管理和優化系統資源。本文主要介紹幾種可用于eRDMA監測的工具和方法,以便您對eRDMA的運行狀態進行監控。

前提條件

待監測實例已安裝和部署eRDMA。具體操作,請參見ECS實例使能eRDMA。

使用云監控監測eRDMA的運行狀態

您可以通過阿里云的云監控產品來監測eRDMA的運行狀態,您也可以根據自己的監控需求對相應的監控數據進行加工、監控或者告警。詳細信息,請參見自定義監控。

查看eRDMA支持的監控指標項

  1. 登錄云監控控制臺。

  2. 在指標列表搜索框中輸入eri,可以篩選出當前eRDMA支持的監控指標。

    image

使用eadm工具進行eRDMA故障診斷和排查

eadm是eRDMA驅動程序默認自動部署的一個用戶態的管理工具,無需手動安裝,它是自研的ECS內部的診斷與實時監測工具,便于在遇到故障時快速進行定位。eadm工具的主要功能包括:

  • 流量監控、問題輔助診斷等功能:整個設備的實時流量統計功能。

  • 配置的查詢與設置功能:包括delay ack功能的配置、擁塞控制算法CC(Congestion Control)的配置等。

以下主要針對eadm工具常見的命令做說明,其他命令可以參考eadm工具的使用幫助(通過eadm -h命令獲取幫助)。

警告

本工具僅用于診斷與調試,工具未來可能發生變化,并不保證命令在任何情況/場景下均可用。

  • 查看eadm命令的幫助信息

    eadm -h

    image

  • 實時監測eRDMA設備的實時流量信息

    eRDMA設備的驅動版本在0.2.34及以后,均支持流量的監控統計功能。

    eadm stat -d <ibdev_name> -l

    其中<ibdev_name>是指待查詢的eRDMA設備名稱(通過ibv_devinfo命令查詢),您需要根據實際環境替換。如果環境中僅有一個eRDMA設備,-d <ibdev_name>參數可省略。

    image

  • 獲取eRDMA設備的統計信息(例如cm和verebs消息的計數、流量計數等)

    eadm stat -d <ibdev_name>

    其中<ibdev_name>是指待查詢的eRDMA設備名稱(通過ibv_devinfo命令查詢),您需要根據實際環境替換。如果環境中僅有一個eRDMA設備,-d <ibdev_name>參數可省略。

    image

  • 獲取當前eRDMA驅動的版本信息

    eadm ver
說明

其余命令,例如info、dump、conf等,會有使用方面的約束限制,不建議您自行使用。

使用iproute2監控和診斷eRDMA

iproute2是一套用于配置和管理Linux網絡的工具集,它提供了一系列的命令行工具(如ip、ss等),用于網絡接口、路由表和流量控制等方面的管理和配置,還可以幫助管理員快速定位和解決網絡連接問題,其自帶的rdma命令可以對RDMA子系統做一些相應的監控和診斷。

說明

大多數Linux發行版在較新的版本中通常已默認安裝iproute2,如Alibaba Cloud Linux 3、Ubuntu20及以上等,具體情況請參閱相應操作系統官方文檔。

  • 查詢當前eRDMA設備的狀態信息

    rdma link

    image

  • 查詢eRDMA設備當前資源使用情況(如CQ數、QP數、MR數等)

    說明

    在RDMA網絡通信中,QP(Queue Pair)、CQ(Completion Queue)、MR(Memory Region)和verbs Opcode是幾個核心的組件,它們在RDMA通信中扮演著重要的角色,共同確保了RDMA網絡通信的高效性和低延遲性。

    詳細信息,請參見彈性RDMA的基礎能力和規格。

    rdma res

    image

  • 查詢eRDMA設備的性能統計信息(例如連接次數、連接狀態、發送/接收的數據包數量等)

    rdma -p stat

    image

使用diagnose進行eRDMA的故障診斷和性能評估

diagnose診斷工具支持eRDMA基礎功能檢測、eRDMA HPC環境檢測和eRDMA基礎延遲檢測,可以幫助您更好地使用eRDMA。

diagnose檢測可能存在以下幾種結果

  • PASS:通過當前檢測。

  • SKIP:當前系統版本不支持該檢測,跳過該檢測。

  • FAIL:相應檢測工具未安裝或檢測失敗,檢測命令會在fail info中列出。

  • 其他INFO信息:eRDMA相關配置信息,如安裝模式、驅動版本以及CC算法等。

安裝diagnose

在已配置eRDMA的實例上,執行以下命令,獲取diagnose工具。

  • 從內網地址獲取

    wget http://mirrors.cloud.aliyuncs.com/erdma/tools/diagnose.py
  • 從公網地址獲取

    wget https://mirrors.aliyun.com/erdma/tools/diagnose.py

diagnose工具使用方法

python diagnose.py -h

image

eRDMA基礎功能診斷

您可以通過diagnose進行eRDMA的基礎功能診斷測試,包括驅動是否正確安裝、網絡連通性是否正確、eRDMA內核驅動的安裝模式等,以確保 eRDMA 功能可以正常運行并發揮其高吞吐量和低延遲的優勢。

eRDMA基礎功能診斷項說明

檢測項

說明

期望輸出

異常輸出及解決方案

erdma device

eRDMA設備是否存在

PASS

FAIL:可能是您在購買實例時,沒有選中eRDMA功能或者沒有添加帶有eRDMA功能的輔助網卡。如何購買或者使能eRDMA,請參見ECS實例使能eRDMA

erdma installed

是否正確安裝eRDMA驅動

PASS

FAIL未正確安裝驅動。請確認您在配置eRDMA過程中的驅動安裝步驟是否正確,或者嘗試重新安裝驅動。具體操作,請參見為ECS實例安裝eRDMA驅動。

erdma loaded

是否正確加載eRDMA驅動

PASS

FAIL未正確加載驅動,可能發生在安裝完驅動但是尚未重啟主機的階段。請嘗試通過modprobe erdma命令解決該問題。

ibverbs loaded

是否正確加載ib_verbs驅動

PASS

FAIL請嘗試通過modprobe ib_uverbs命令解決該問題。

erdma tools

檢測eRDMA相關工具是否安裝

PASS

FAIL通過eadm|rdma|ibv_devinfo命令判斷哪些工具缺失,這些工具通常會隨eRDMA驅動一同安裝,請確認您在配置eRDMA過程中的驅動安裝步驟是否正確,或者嘗試重新安裝驅動。具體操作,請參見為ECS實例安裝eRDMA驅動。

hca detected

用戶態驅動是否正確檢測eRDMA設備

PASS

FAIL該問題是由于erdma deviceerdma installed、erdma loaded、ibverbs loaded檢測項未滿足導致,請確認eRDMA驅動已安裝并正確加載。

hca active

是否使能當前設備

PASS

FAIL該問題是由于eRDMA設備對應的ENI設備沒有變為running狀態。這種情況可能出現在某些較舊版本的內核中,需要先通過dhclient -v ethx命令將對應的eth設備使能后,再檢查eRDMA設備是否處于ACTIVE狀態。具體操作,請參見驗證eRDMA配置的正確性

erdma stats

eRDMA設備是否存在錯誤計數

PASS

  • SKIP:可能是因為操作系統不支持rdma stat命令。

  • FAIL:可能是出現了某些錯誤的計數。在尋求技術支持時,建議帶上rdma -p stat命令的輸出結果。

network config

網絡連通性是否正常

PASS

FAIL:一般是由于當前有多個網卡的IP地址在同一個子網內,會導致某些場景下eRDMA功能異常。

erdma dmesg

是否存在eRDMA相關內核告警

PASS

FAIL:內核出現eRDMA相關告警。您可以檢查相關的告警錯誤,并嘗試重新加載驅動解決。

atomic support

eRDMA設備是否支持RDMA ATOMIC操作

PASS

FAIL:當前eRDMA設備不支持RDMA ATOMIC操作。如您不需要使用RDMA ATOMIC操作,請忽略該報錯。

說明

ATOMIC操作指的是一種對內存進行原子級別操作的功能,它可以保證操作的完整性和一致性,僅適用于部分應用場景。如果您不需要使用,請忽略相關報錯。

go-back-n support

eRDMA設備是否支持Go-back-N功能

PASS

  • SKIP:可能是當前eRDMA設備不支持查詢Go-back-N配置信息。

  • FAIL:可能是未正確安裝eadm工具或當前eRDMA設備不支持Go-back-N功能。

說明

Go-back-N為eRDMA擴展功能,僅適用于部分應用場景。如果您不需要使用,請忽略相關報錯。

erdma install mode

eRDMA內核驅動安裝模式

  • Standard:標準模式,僅支持RDMA_CM建鏈。

  • Compat:兼容模式,支持RDMA_CM和OOB建鏈。

    重要

FAIL:未查詢到eRDMA內核驅動安裝模式,該問題可能是由于前述erdma loaded檢測項未滿足導致,請嘗試重新安裝eRDMA驅動。具體操作,請參見為ECS實例安裝eRDMA驅動。

kernel driver version

eRDMA內核驅動版本

eRDMA當前的內核驅動版本,例如0.2.37。

FAIL:未查詢到eRDMA內核態驅動版本??赡苁怯捎?code data-tag="code" code-type="xCode" class="code">erdma loaded或erdma tools檢測項未滿足導致,請確認eRDMA驅動已安裝并正確加載。具體操作,請參見驗證eRDMA配置的正確性

rdma-core version

eRDMA用戶態驅動版本

eRDMA用戶態驅動版本,例如44.1-2

FAIL:未查詢到eRDMA用戶態驅動版本??赡苁俏凑_安裝eRDMA用戶態驅動,請嘗試重新安裝eRDMA驅動。具體操作,請參見為ECS實例安裝eRDMA驅動。

cc algorithm

eRDMA當前使用的CC算法

eRDMA CC算法,例如hpcc_rtt。

FAIL:未查詢到當前eRDMA CC算法。可能是由于erdma loadederdma tools檢測項未滿足導致,請確認eRDMA驅動已安裝并正確加載。

具體操作如下所示:

  1. 遠程登錄已配置eRDMA的實例。

    具體操作,請參見使用Workbench工具以SSH協議登錄Linux實例。

  2. 執行以下命令,獲取diagnose工具。

    • 從內網地址獲取

      wget http://mirrors.cloud.aliyuncs.com/erdma/tools/diagnose.py
    • 從公網地址獲取

      wget https://mirrors.aliyun.com/erdma/tools/diagnose.py
  3. 執行以下命令,檢測eRDMA基礎功能。

    python diagnose.py -d

    結果如下所示,可以看到本示例中測試項結果。關于診斷項說明,請參見eRDMA基礎功能診斷項說明。

    image

eRDMA HPC環境診斷

如果您需要在eRDMA的環境下運行HPC應用,您可能需要安裝一些額外的依賴和配置,diagnose工具提供eRDMA HPC環境依賴項檢測功能。

eRDMA HPC環境檢測依賴項說明

當前eRDMA HPC環境依賴項檢測主要包括當前eRDMA使用的CC算法、是否開啟Go-back-N、DAPL 1.0和DAPL 2.0相關檢測。如您不需要使用相關依賴項,請忽略相關報錯,比如您只需要使用DAPL 2.0,那么請忽略DAPL 1.0相關報錯。

檢測項

說明

期望輸出

異常輸出及解決方式

cc algorithm

eRDMA當前使用的CC算法

eRDMA CC算法,例如hpcc_rtt

FAIL:未查詢到當前eRDMA CC算法,可能是未正確安裝eadm工具或當前eadm工具不支持查詢eRDMA CC算法。

go-back-n support

eRDMA設備是否支持Go-back-N功能

PASS

  • SKIP:可能是當前eRDMA設備不支持查詢Go-back-N配置信息。

  • FAIL:可能是未正確安裝eadm工具或當前eRDMA設備不支持Go-back-N功能。

該特性缺失可能會對HPC類型應用產生影響。如您不需要,請忽略該報錯。

dapl1 install

是否正確安裝dapl1

PASS

FAIL:dapl1相關共享庫或配置文件不存在,請檢查當前dapl1是否正確安裝。如果您不需要dapl1,請忽略該報錯。

dapl1 config

是否在dapl1配置文件中配置eRDMA

PASS

FAIL:未在dapl1配置文件中檢測到eRDMA相關配置,請檢查當前dapl1配置文件并加入eRDMA相關配置。如果您不需要dapl1,請忽略該報錯。

dapl2 install

是否正確安裝dapl2

PASS

FAIL:dapl2相關共享庫或配置文件不存在,請檢查當前dapl2是否正確安裝。如果您不需要dapl2,請忽略該報錯。

dapl2 config

是否在dapl2配置文件中配置eRDMA

PASS

FAIL:未在dapl2配置文件中檢測到eRDMA相關配置,請檢查當前dapl2配置文件并加入eRDMA相關配置。如果您不需要dapl2,請忽略該報錯。

dapl2 test

是否正常運行dapl2 dtest

PASS

FAIL:運行dtest失敗,可能是未正確安裝或配置dapl2。

具體操作如下所示:

  1. 遠程登錄已配置eRDMA的實例。

    具體操作,請參見使用Workbench工具以SSH協議登錄Linux實例。

  2. 執行以下命令,獲取diagnose工具。

    • 從內網地址獲取

      wget http://mirrors.cloud.aliyuncs.com/erdma/tools/diagnose.py
    • 從公網地址獲取

      wget https://mirrors.aliyun.com/erdma/tools/diagnose.py
  3. 執行如下命令,檢測eRDMA HPC環境依賴項。

    python diagnose.py --hpc-check

    正常情況下,執行上述檢測命令的輸出結果如下。關于診斷項說明,請參見eRDMA HPC環境檢測依賴項說明。

    image.png

eRDMA網絡性能評估

您可以使用diagnose的perftest功能進行不同實例之間的網絡性能測試。

  • 前提條件

    在執行檢測之前,您需要確保:

    • 已在所有待檢測節點上正確安裝和部署eRDMA。具體操作,請參見ECS實例使能eRDMA。

    • 已配置所有待檢測節點之間可通過SSH免密連接。具體操作,請參見配置SSH免密登錄。

    • 已在所有待檢測節點上安裝Python paramiko依賴包。

      說明
      • diagnose利用paramiko實現遠程連接。

      • 您可以參考如下命令安裝Python paramiko依賴包。如果您對Python版本沒有要求,推薦您默認使用Python3以減少配置工作量。

      Alibaba Cloud Linux/Centos

      # python3
      sudo python3 -m pip install --upgrade pip
      sudo python3 -m pip install paramiko 
      # python2
      # 如果當前python2未安裝pip模塊,請安裝python2-pip
      sudo yum -y install python2-pip
      sudo python2 -m pip install --upgrade pip==20.3.4
      sudo python2 -m pip install paramiko 

      Ubuntu

      # python3
      sudo python3 -m pip install --upgrade pip
      sudo python3 -m pip install paramiko
      # python2
      # 如果當前節點未安裝python2-pip
      sudo apt install software-properties-common
      sudo add-apt-repository universe
      sudo apt update
      sudo apt install python2
      sudo curl https://bootstrap.pypa.io/pip/2.7/get-pip.py --output get-pip.py
      sudo python2 get-pip.py
      sudo python2 -m pip install --upgrade pip==20.3.4
      sudo python2 -m pip install paramiko
  • 示例操作

    1. 遠程登錄已配置eRDMA的實例。

      具體操作,請參見使用Workbench工具以SSH協議登錄Linux實例。

    2. 執行以下命令,獲取diagnose工具。

      • 從內網地址獲取

        wget http://mirrors.cloud.aliyuncs.com/erdma/tools/diagnose.py
      • 從公網地址獲取

        wget https://mirrors.aliyun.com/erdma/tools/diagnose.py
    3. 執行如下命令,進行eRDMA延遲檢測。

      python diagnose.py --perftest --hosts <n1> <n2> --user <username> --key-file </path/to/private_key>

      各參數說明如下:

      • --hosts <n1> <n2>:待檢測的各節點,彼此之間通過空格分隔。您需要將<n1> <n2>替換為檢測節點上的eRDMA彈性網卡對應的私有IP地址。

      • --user <username>:SSH免密登錄用戶名,請根據實際環境替換。

      • --key-file </path/to/private_key>:SSH免密登錄所使用的私鑰文件路徑(絕對路徑),請根據實際環境替換。

      檢測結果示例如下,顯示了兩臺實例之間的網絡延遲測試。詳細信息,請參見eRDMA網絡性能測試。

      每個表格展示了不同操作下的延遲情況。表格中的行代表發起請求的一方,列代表響應請求的一方。每個單元格內的數值表示平均延遲(單位為微秒),括號內是第99.9百分位的延遲時間。

      image.png