久久综合亚洲色一区二区三区,欧美日韩在线一品道,一本无码字幕在线少妇人妻

Qwen系列大模型鏡像是AC2推出的開箱即用容器部署服務。容器鏡像包含了運行Qwen系列大模型所需的所有依賴，包括Python運行環境、深度學習框架以及依賴庫。確保Qwen系列大模型能夠高效、穩定地在不同環境下部署和服務。本系列鏡像不包含大模型權重文件，需用戶自行下載，或使用鏡像提供的下載能力下載。Qwen系列大模型鏡像通過Web Demo的形式對外提供服務，也可以通過將本系列鏡像作為基礎鏡像，定制不同形式的服務提供方式。

鏡像列表

Qwen系列大模型鏡像分為「一鍵部署鏡像」和「運行環境鏡像」，具體區別如下：

運行環境鏡像：僅包含運行該模型所需要的所有軟件環境，包括系統組件以及Python依賴。
一鍵部署鏡像：包含運行環境、啟動腳本以及Web Demo腳本。

鏡像類型	支持大模型	CPU/GPU	鏡像地址
運行環境鏡像	Qwen 1.8-72B（支持量化模型）	GPU	ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/qwen:runtime-pytorch2.2.0.1-cuda12.1.1-alinux3.2304
運行環境鏡像	Qwen 1.8-72B	CPU	ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/qwen:runtime-pytorch2.2.0.1-alinux3.2304
一鍵部署鏡像	Qwen-Chat-7B	GPU	ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/qwen:7b-pytorch2.2.0.1-cuda12.1.1-alinux3.2304
一鍵部署鏡像	Qwen-Chat-7B	CPU	ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/qwen:7b-pytorch2.2.0.1-alinux3.2304

鏡像內容

qwen:runtime-pytorch2.2.0.1-cuda12.1.1-alinux3.2304
- gradio: 3.41.0
- optimum: 1.19.2
- auto-gptq: 0.7.1
- flash-attn: 2.5.8
- tiktoken: 0.5.2
- accelerate: 0.26.1
- transformers: 4.36.2
- PyTorch: 2.2.0.1
- CUDA：12.1.1
- Python: 3.10.13
- BaseOS: Alinux 3.2304
qwen:runtime-pytorch2.2.0.1-alinux3.2304
- gradio: 3.41.0
- tiktoken: 0.5.2
- accelerate: 0.26.1
- transformers: 4.36.2
- PyTorch: 2.2.0.1
- Python: 3.10.13
- BaseOS: Alinux 3.2304
qwen:7b-pytorch2.2.0.1-cuda12.1.1-alinux3.2304
組件繼承自qwen:runtime-pytorch2.2.0.1-cuda12.1.1-alinux3.2304
qwen:7b-pytorch2.2.0.1-alinux3.2304
組件繼承自qwen:runtime-pytorch2.2.0.1-alinux3.2304

鏡像運行要求

qwen:runtime-pytorch2.2.0.1-alinux3.2304以及qwen:7b-pytorch2.2.0.1-alinux3.2304為CPU鏡像，對驅動無要求。
qwen:runtime-pytorch2.2.0.1-cuda12.1.1-alinux3.2304以及qwen:7b-pytorch2.2.0.1-cuda12.1.1-alinux3.2304為GPU鏡像，包含CUDA 12.1.1，需要nvidia-driver >= 530，兼容nvidia-driver R470、R525。

GPU兼容性說明

GPU鏡像中集成了FlashAttention-2，該組件對GPU架構有兼容性要求。下表整理了FlashAttention-2對不同GPU架構的支持情況，以及對應的阿里云在售異構實例的GPU型號。

GPU架構	阿里云在售	FlashAttention-2
Ampere	A10	支持
Turing	T4	不支持
Volta	V100
Pascal	P100、P4

在不支持的GPU架構上運行Qwen大模型，可能會出現「FlashAttention only supports Ampere GPUs or newer」的錯誤提示。可以在運行容器中通過以下命令移除FlashAttention-2組件，防止Qwen大模型在不支持的GPU設備上使用FlashAttention-2加速。

pip uninstall -y flash-attn

重要特性

GPU鏡像預裝optimum、auto-gptq、flash-attn，支持量化模型。
部署鏡像提供一鍵部署能力，內置運行腳本（腳本來源）。

更新記錄

2024.06
發布qwen鏡像運行環境鏡像
2024.07
發布qwen鏡像一鍵部署鏡像

日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

Qwen鏡像ReleaseNotes