本文介紹使用阿里云第八代Intel實例,基于xFasterTransformer單機部署通義千問Qwen-1.8B-Chat語言模型,并使用Qwen-1.8B-Chat推薦系統進行Query改寫演示。
背景信息
通義千問-1.8B(Qwen-1.8B-Chat)
通義千問-1.8B是阿里云研發的通義千問大模型系列的18億參數規模的模型。Qwen-1.8B是基于Transformer的大語言模型,在超大規模的預訓練數據上進行訓練得到。預訓練數據類型多樣,覆蓋廣泛,包括大量網絡文本、專業書籍、代碼等。同時,在Qwen-1.8B的基礎上,阿里云使用對齊機制打造了基于大語言模型的AI助手Qwen-1.8B-Chat。
阿里云第八代Intel CPU實例
阿里云八代實例(g8i/c8i/r8i/hfc8i/hfg8i/hfr8i)采用Intel? Xeon? Emerald Rapids或者Intel? Xeon? Sapphire Rapids,該實例支持使用新的AMX(Advanced Matrix Extensions)指令來加速AI任務。相比于上一代實例,八代實例在Intel? AMX的加持下,推理和訓練性能大幅提升。
xFasterTransformer
xFasterTransformer是由Intel官方開源的推理框架,為大語言模型(LLM)在CPU X86平臺上的部署提供了一種深度優化的解決方案,支持多CPU節點之間的分布式部署方案,使得超大模型在CPU上的部署成為可能。此外,xFasterTransformer提供了C++和Python兩種API接口,涵蓋了從上層到底層的接口調用,易于用戶使用并將xFasterTransformer集成到自有業務框架中。xFasterTransformer目前支持的模型如下:
Models | Framework | Distribution | |
Pytorch | C++ | ||
ChatGLM | √ | √ | √ |
ChatGLM2 | √ | √ | √ |
ChatGLM3 | √ | √ | √ |
Llama | √ | √ | √ |
Llama2 | √ | √ | √ |
Baichuan | √ | √ | √ |
QWen | √ | √ | √ |
SecLLM(YaRN-Llama) | √ | √ | √ |
Opt | √ | √ | √ |
xFasterTransformer支持多種低精度數據類型來加速模型部署。除單一精度以外,還支持混合精度,以更充分地利用CPU的計算資源和帶寬資源,從而提高大語言模型的推理速度。以下是xFasterTransformer支持的單一精度和混合精度類型:
FP16
BF16
INT8
W8A8
INT4
NF4
BF16_FP16
BF16_INT8
BF16_W8A8
BF16_INT4
BF16_NF4
W8A8_INT8
W8A8_int4
W8A8_NF4
步驟一:創建ECS實例
前往實例創建頁。
按照界面提示完成參數配置,創建一臺ECS實例。
需要注意的參數如下,其他參數的配置,請參見自定義購買實例。
實例:Qwen-1.8B-Chat運行大概需要16 GiB內存以上,為了保證模型運行的穩定,實例規格至少需要選擇ecs.c8i.4xlarge(32 GiB內存)。
鏡像:Alibaba Cloud Linux 3.2104 LTS 64位。
公網IP:選中分配公網IPv4地址,帶寬計費模式選擇按使用流量,帶寬峰值設置為100 Mbps。以加快模型下載速度。
系統盤:Qwen-1.8B-Chat模型數據下載、轉換和運行過程中需要占用14 GiB的存儲空間,為了保證模型順利運行,建議系統盤設置為40 GiB。
添加安全組規則。
在ECS實例安全組的入方向添加安全組規則并放行22端口和7860端口(22端口用于訪問SSH服務,7860端口用于訪問WebUI頁面)。具體操作,請參見添加安全組規則。
步驟二:安裝模型所需容器環境
遠程連接該ECS實例。
具體操作,請參見使用Workbench工具以SSH協議登錄Linux實例。
安裝并啟動Docker。
具體操作,請參見安裝Docker。
獲取并運行Intel xFasterTransformer容器。
sudo docker pull registry.openanolis.cn/openanolis/xfastertransformer:1.7.3-23 sudo docker run -it --name xFT -h xFT --privileged --shm-size=16g --network host -v /mnt:/mnt -w /mnt/xFasterTransformer registry.openanolis.cn/openanolis/xfastertransformer:1.7.3-23
當出現類似如下信息時,表示已獲取并成功運行xFasterTransformer容器。
重要后續操作都需要在容器中運行,如果退出了容器,可以通過以下命令啟動并再次進入容器的Shell環境。
sudo docker start xFT sudo docker exec -it xFT bash
(可選)更新xFasterTransformer腳本代碼。
xFasterTransformer鏡像中已包含對應版本的腳本代碼,可以更新升級到最新的測試腳本。
yum update -y yum install -y git cd /root/xFasterTransformer git pull
步驟三:準備模型數據
在容器中安裝依賴軟件。
yum update yum install -y wget git git-lfs vim tmux
啟用Git LFS。
下載預訓練模型需要Git LFS的支持。
git lfs install
創建并進入模型數據目錄。
mkdir /mnt/data cd /mnt/data
創建一個tmux session。
tmux
重要下載預訓練模型耗時較長,且成功率受網絡情況影響較大,建議在tmux session中下載,以避免ECS斷開連接導致下載模型中斷。
下載Qwen-1.8B-Chat預訓練模型。
pip install einops transformers_stream_generator tiktoken git clone https://www.modelscope.cn/qwen/Qwen-1_8B-Chat.git
轉換模型數據。
由于下載的模型數據是HuggingFace格式,需要轉換成xFasterTransformer格式。生成的模型文件夾為
/mnt/data/Qwen-1_8B-Chat-xft
。python -c 'import xfastertransformer as xft; xft.QwenConvert().convert("/mnt/data/Qwen-1_8B-Chat")'
說明不同的模型數據使用的Convert類不同,xFasterTransformer支持以下模型轉換類:
LlamaConvert
ChatGLMConvert
ChatGLM2Convert
ChatGLM3Convert
OPTConvert
BaichuanConvert
QwenConvert
步驟四:在實例終端進行Query改寫演示
執行以下命令,啟動AI對話程序。
cd /root/xFasterTransformer/examples/pytorch OMP_NUM_THREADS=$(($(lscpu | grep "^CPU(s):" | awk '{print $NF}') / 2)) numactl -C $(seq -s, 0 2 $(($(lscpu | grep "^CPU(s):" | awk '{print $NF}') - 2))) -m 0 python demo.py -t /mnt/data/Qwen-1_8B-Chat -m /mnt/data/Qwen-1_8B-Chat-xft -d bf16 --chat true
輸入prompt,查看改寫效果。
本示例輸入:
lowercase format, remove redundancy: The Most Popular Most Popular Sneakers
。最終可以將輸入的Query:
The Most Popular Most Popular Sneakers
改寫成標準的Query:The most popular sneakers.
。