本文為您介紹智能計算靈駿的常見問題。
如何創建、刪除集群下的節點分組?
您有兩種方式為靈駿集群創建分組。
創建集群時,為集群創建分組。更多信息,請參見集群和分組配置。
創建集群完成后,為已有的集群創建分組。
在左側導航欄,選擇資源與節點>集群管理。
單擊相應的集群ID/名稱。
單擊節點分組頁簽。
單擊新建分組。輸入節點組的分組名稱、默認機型等信息。
(可選)創建完集群分組后,您可以編輯相應集群分組的名稱或刪除集群分組。
刪除集群下的節點分組。
在左側導航欄,選擇資源與節點>集群管理。
單擊相應的集群ID/名稱。
單擊節點分組頁簽。
在相應的節點分組后的操作列單擊刪除。
在對話框中單擊確定。
刪除集群時,為什么提示需先刪除所有分組下的節點?
您需要先對集群進行縮容,保證集群下沒有節點,才能刪除集群,具體操作請參見刪除集群。
為什么深度學習和神經網絡需要GPU?
GPU與CPU的對比如下表所示。
對比項 | GPU | CPU |
算術運算單元(ALU) | 大量擅長處理大規模并發計算的算術運算單元(ALU)。 | 擁有強大的算術運算單元(ALU),但數量較少。 |
邏輯控制單元 | 相對簡單的邏輯控制單元。 | 復雜的邏輯控制單元。 |
緩存 | 緩存較低且用于服務線程,不用于保存訪問的數據。 | 擁有大量緩存結構,能夠將數據保存至緩存,從而提高訪問速度、降低時延。 |
響應方式 | 需要將全部任務整合后,再進行批處理。 | 實時響應,對單個任務的響應速度較快。 |
適用場景 | 適用于計算密集、相似度高、多線程并行的高吞吐量運算場景。 | 適用于對響應速度有要求,邏輯復雜的串行運算場景。 |
最適合GPU的計算類型是可以并行完成的計算,您可以使用并行編程方法和GPU加速計算。而神經網絡是高度并行的,非常適合用GPU進行計算。最典型的例子比如卷積,每個卷積計算都獨立于其他卷積計算,這意味著任何計算都不依賴于其他計算的結果。您使用神經網絡進行的許多計算都可以很容易地分解成更小的計算,各個小計算不會相互依賴。
智能計算靈駿與普通GPU托管服務有什么不同?
智能計算靈駿集群采用專為大規模AI計算場景所設計的系統架構和多層性能優化技術,能充分利用整體的計算、通信和內存能力。在并行度極高的大規模計算場景,比如自然語言處理、自動駕駛模型訓練、推薦引擎等,相比普通GPU托管服務可以減少訓練的時間和成本,建立更大、更復雜的模型。
開通集群后,是否需要安裝GPU驅動?
靈駿計算節點的操作系統鏡像中已包含GPU驅動,您可以使用nvidia-smi確認GPU驅動已正確安裝并查詢顯卡狀態。
如何查詢GPU顯卡的詳細信息?
不同操作系統的靈駿節點實例,查看GPU顯卡信息的操作有所區別,具體說明如下:
如果您的靈駿節點安裝了Linux操作系統,您可以執行命令nvidia-smi,查詢GPU顯卡的詳細信息。
如果您需要了解GPU顯卡的空閑率、使用率、溫度以及功率等信息,可以前往數據大盤查看。具體操作,請參見數據大盤。
如何使用eGPU套件?
靈駿節點默認安裝eGPU軟件包的試用版,試用期為3個月。如您希望使用更長時間,請提交工單。目前eGPU的長期授權僅對企業認證用戶開放。