Qwen系列大模型鏡像是AC2推出的開箱即用容器部署服務。容器鏡像包含了運行Qwen系列大模型所需的所有依賴,包括Python運行環境、深度學習框架以及依賴庫。確保Qwen系列大模型能夠高效、穩定地在不同環境下部署和服務。本系列鏡像不包含大模型權重文件,需用戶自行下載,或使用鏡像提供的下載能力下載。Qwen系列大模型鏡像通過Web Demo的形式對外提供服務,也可以通過將本系列鏡像作為基礎鏡像,定制不同形式的服務提供方式。
鏡像列表
Qwen系列大模型鏡像分為「一鍵部署鏡像」和「運行環境鏡像」,具體區別如下:
運行環境鏡像:僅包含運行該模型所需要的所有軟件環境,包括系統組件以及Python依賴。
一鍵部署鏡像:包含運行環境、啟動腳本以及Web Demo腳本。
鏡像類型 | 支持大模型 | CPU/GPU | 鏡像地址 |
運行環境鏡像 | Qwen 1.8-72B(支持量化模型) | GPU | ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/qwen:runtime-pytorch2.2.0.1-cuda12.1.1-alinux3.2304 |
Qwen 1.8-72B | CPU | ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/qwen:runtime-pytorch2.2.0.1-alinux3.2304 | |
一鍵部署鏡像 | GPU | ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/qwen:7b-pytorch2.2.0.1-cuda12.1.1-alinux3.2304 | |
CPU | ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/qwen:7b-pytorch2.2.0.1-alinux3.2304 |
鏡像內容
qwen:runtime-pytorch2.2.0.1-cuda12.1.1-alinux3.2304
gradio: 3.41.0
optimum: 1.19.2
auto-gptq: 0.7.1
flash-attn: 2.5.8
tiktoken: 0.5.2
accelerate: 0.26.1
transformers: 4.36.2
PyTorch: 2.2.0.1
CUDA:12.1.1
Python: 3.10.13
BaseOS: Alinux 3.2304
qwen:runtime-pytorch2.2.0.1-alinux3.2304
gradio: 3.41.0
tiktoken: 0.5.2
accelerate: 0.26.1
transformers: 4.36.2
PyTorch: 2.2.0.1
Python: 3.10.13
BaseOS: Alinux 3.2304
qwen:7b-pytorch2.2.0.1-cuda12.1.1-alinux3.2304
組件繼承自qwen:runtime-pytorch2.2.0.1-cuda12.1.1-alinux3.2304
qwen:7b-pytorch2.2.0.1-alinux3.2304
組件繼承自qwen:runtime-pytorch2.2.0.1-alinux3.2304
鏡像運行要求
qwen:runtime-pytorch2.2.0.1-alinux3.2304以及qwen:7b-pytorch2.2.0.1-alinux3.2304為CPU鏡像,對驅動無要求。
qwen:runtime-pytorch2.2.0.1-cuda12.1.1-alinux3.2304以及qwen:7b-pytorch2.2.0.1-cuda12.1.1-alinux3.2304為GPU鏡像,包含CUDA 12.1.1,需要nvidia-driver >= 530,兼容nvidia-driver R470、R525。
GPU兼容性說明
GPU鏡像中集成了FlashAttention-2,該組件對GPU架構有兼容性要求。下表整理了FlashAttention-2對不同GPU架構的支持情況,以及對應的阿里云在售異構實例的GPU型號。
GPU架構 | 阿里云在售 | FlashAttention-2 |
Ampere | A10 | 支持 |
Turing | T4 | 不支持 |
Volta | V100 | |
Pascal | P100、P4 |
在不支持的GPU架構上運行Qwen大模型,可能會出現「FlashAttention only supports Ampere GPUs or newer」的錯誤提示。可以在運行容器中通過以下命令移除FlashAttention-2組件,防止Qwen大模型在不支持的GPU設備上使用FlashAttention-2加速。
pip uninstall -y flash-attn
重要特性
GPU鏡像預裝optimum、auto-gptq、flash-attn,支持量化模型。
部署鏡像提供一鍵部署能力,內置運行腳本(腳本來源)。
更新記錄
2024.06
發布qwen鏡像運行環境鏡像
2024.07
發布qwen鏡像一鍵部署鏡像