本文匯總使用GPU云服務器過程中涉及的基本概念,方便您查詢和了解相關概念。
GPU云服務器相關概念
概念 | 說明 |
圖形處理器(Graphics Processing Unit)。相比CPU具有眾多計算單元和更多的流水線,適合用于大規模并行計算等場景。 | |
CUDA | NVIDIA推出的通用并行計算架構,幫助您使用NVIDIA GPU解決復雜的計算問題。 |
cuDNN | NVIDIA推出的用于深度神經網絡的GPU加速庫。 |
阿里云專門為GPU云服務器搭配的具有GPU計算服務增強能力的免費工具集合。 | |
阿里云自研的AI訓練加速器,為傳統AI和生成式AI場景提供訓練加速功能。 | |
阿里云自研的AI推理加速器,通過對模型的計算圖進行切割、執行層融合以及高性能OP的實現,可以大幅度提升PyTorch的推理性能。 | |
阿里云推出的AI分布式訓練通信優化庫。可實現分布式訓練在兼容性、適用性和性能加速等方面的升級。 | |
阿里云推出的一個基于PyTorch深度學習框架研發的計算優化編譯器。可以實現無感的計算優化功能。 | |
阿里云推出的人工智能計算任務構建工具。提供便捷的接口和命令行,供您在阿里云IaaS資源上構建人工智能計算任務。 | |
阿里云基于內核虛擬GPU隔離的容器共享技術。隔離GPU資源,實現多個容器共用一張顯卡。 |
ECS通用概念
概念 | 說明 |
云上的虛擬計算服務器,內含vCPU、內存、操作系統、網絡、磁盤等基礎組件。 | |
定義了ECS實例在計算性能、存儲性能、網絡性能等方面的基本屬性,但需要同時配合鏡像、塊存儲、網絡等配置才能確定一臺ECS實例的具體服務形態。 | |
提供了運行實例所需的信息,包括操作系統、初始化應用數據等。 | |
阿里云官方提供的基礎鏡像,均已獲得正版授權,涵蓋Windows Server系統鏡像和主流的Linux系統鏡像。 | |
阿里云官方操作系統,為云上應用程序提供安全、穩定、高性能的定制化運行環境,并進行了針對性的深度優化,更加適合阿里云基礎設施。 | |
您自行創建或導入的鏡像,包含了初始系統環境、應用環境、軟件配置等信息,可以節省重復配置的時間。 | |
高性能、低時延的塊設備,像物理硬盤一樣分區格式化并創建文件系統后使用,滿足大部分通用業務場景下的數據存儲需求。 | |
數據塊級別的塊存儲產品,采用分布式三副本機制,為ECS實例提供99.9999999%的數據可靠性保證。 | |
ECS實例所在物理機上的本地硬盤設備,存儲I/O性能、海量存儲的性價比極高,但數據可靠性取決于物理機的可靠性,存在單點故障風險。 | |
某一時間點云盤數據狀態的備份文件,用于備份或者恢復整個云盤。 | |
一種虛擬防火墻,您可以基于安全組控制實例的入流量和出流量。 | |
一種安全便捷的登錄認證方式,由公鑰和私鑰組成,僅支持Linux實例。 | |
ECS實例通過實例RAM角色獲得該角色擁有的權限,可以基于臨時安全令牌STS(Security Token Service)訪問指定云服務的API和操作指定的云資源,安全性更高。 | |
您基于阿里云創建的自定義私有網絡,不同專有網絡之間通過隧道在邏輯上徹底隔離。您可以完全掌控自己的專有網絡,例如選擇IP地址范圍、配置路由表和網關等。 | |
一種獨立的虛擬網卡,可以綁定到ECS實例或從ECS實例解綁,實現業務的靈活擴展和遷移。 | |
包含了ECS實例的配置信息,使用實例啟動模板創建ECS實例可以免去重復配置的操作。 | |
部署集支持高可用策略,部署集內實例會嚴格分散在不同的物理服務器上,保證業務的高可用性和底層容災能力。 | |
一臺由單租戶獨享物理資源的云主機,具有滿足嚴格的安全合規要求、允許自帶許可證(BYOL)上云等優勢。 | |
用于快速部署多可用區、多實例規格的ECS實例集群,通過多種供應策略組合使用搶占式實例和按量付費實例,滿足對低成本和高穩定性的要求。 | |
由一對鍵值(Key-Value)組成。使用標簽標識具有相同特征的資源后,例如所屬組織或用途相同的資源,您可以基于標簽方便地檢索和管理資源。 | |
供您從業務角度管理跨地域、跨產品的資源,并支持針對資源組的權限管理。 | |
阿里云提供的自動化運維工具,無需登錄即可完成在ECS實例上執行命令、向ECS實例發送文件等操作。 | |
影響ECS實例運行狀態的計劃底層運維事件或非預期維修事件,需要進行重啟、停止或釋放ECS實例等操作。系統事件會及時發送通知、應對措施和事件周期等信息,方便您提前完成備份數據等準備工作。 |