日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

Qwen鏡像ReleaseNotes

Qwen系列大模型鏡像是AC2推出的開箱即用容器部署服務。容器鏡像包含了運行Qwen系列大模型所需的所有依賴,包括Python運行環境、深度學習框架以及依賴庫。確保Qwen系列大模型能夠高效、穩定地在不同環境下部署和服務。本系列鏡像不包含大模型權重文件,需用戶自行下載,或使用鏡像提供的下載能力下載。Qwen系列大模型鏡像通過Web Demo的形式對外提供服務,也可以通過將本系列鏡像作為基礎鏡像,定制不同形式的服務提供方式。

鏡像列表

Qwen系列大模型鏡像分為「一鍵部署鏡像」和「運行環境鏡像」,具體區別如下:

  • 運行環境鏡像:僅包含運行該模型所需要的所有軟件環境,包括系統組件以及Python依賴。

  • 一鍵部署鏡像:包含運行環境、啟動腳本以及Web Demo腳本。

鏡像類型

支持大模型

CPU/GPU

鏡像地址

運行環境鏡像

Qwen 1.8-72B(支持量化模型)

GPU

ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/qwen:runtime-pytorch2.2.0.1-cuda12.1.1-alinux3.2304

Qwen 1.8-72B

CPU

ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/qwen:runtime-pytorch2.2.0.1-alinux3.2304

一鍵部署鏡像

Qwen-Chat-7B

GPU

ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/qwen:7b-pytorch2.2.0.1-cuda12.1.1-alinux3.2304

CPU

ac2-registry.cn-hangzhou.cr.aliyuncs.com/ac2/qwen:7b-pytorch2.2.0.1-alinux3.2304

鏡像內容

  • qwen:runtime-pytorch2.2.0.1-cuda12.1.1-alinux3.2304

    • gradio: 3.41.0

    • optimum: 1.19.2

    • auto-gptq: 0.7.1

    • flash-attn: 2.5.8

    • tiktoken: 0.5.2

    • accelerate: 0.26.1

    • transformers: 4.36.2

    • PyTorch: 2.2.0.1

    • CUDA:12.1.1

    • Python: 3.10.13

    • BaseOS: Alinux 3.2304

  • qwen:runtime-pytorch2.2.0.1-alinux3.2304

    • gradio: 3.41.0

    • tiktoken: 0.5.2

    • accelerate: 0.26.1

    • transformers: 4.36.2

    • PyTorch: 2.2.0.1

    • Python: 3.10.13

    • BaseOS: Alinux 3.2304

  • qwen:7b-pytorch2.2.0.1-cuda12.1.1-alinux3.2304

    組件繼承自qwen:runtime-pytorch2.2.0.1-cuda12.1.1-alinux3.2304

  • qwen:7b-pytorch2.2.0.1-alinux3.2304

    組件繼承自qwen:runtime-pytorch2.2.0.1-alinux3.2304

鏡像運行要求

  • qwen:runtime-pytorch2.2.0.1-alinux3.2304以及qwen:7b-pytorch2.2.0.1-alinux3.2304為CPU鏡像,對驅動無要求。

  • qwen:runtime-pytorch2.2.0.1-cuda12.1.1-alinux3.2304以及qwen:7b-pytorch2.2.0.1-cuda12.1.1-alinux3.2304為GPU鏡像,包含CUDA 12.1.1,需要nvidia-driver >= 530,兼容nvidia-driver R470、R525。

GPU兼容性說明

GPU鏡像中集成了FlashAttention-2,該組件對GPU架構有兼容性要求。下表整理了FlashAttention-2對不同GPU架構的支持情況,以及對應的阿里云在售異構實例的GPU型號。

GPU架構

阿里云在售

FlashAttention-2

Ampere

A10

支持

Turing

T4

不支持

Volta

V100

Pascal

P100、P4

在不支持的GPU架構上運行Qwen大模型,可能會出現「FlashAttention only supports Ampere GPUs or newer」的錯誤提示。可以在運行容器中通過以下命令移除FlashAttention-2組件,防止Qwen大模型在不支持的GPU設備上使用FlashAttention-2加速。

pip uninstall -y flash-attn

重要特性

  • GPU鏡像預裝optimum、auto-gptq、flash-attn,支持量化模型。

  • 部署鏡像提供一鍵部署能力,內置運行腳本(腳本來源)。

更新記錄

  • 2024.06

    發布qwen鏡像運行環境鏡像

  • 2024.07

    發布qwen鏡像一鍵部署鏡像