DeepGPU-LLM是阿里云研發的基于GPU云服務器的大語言模型(Large Language Model,LLM)的推理引擎,在處理大語言模型任務中,該推理引擎可以為您提供高性能的大模型推理服務。
產品簡介
DeepGPU-LLM作為阿里云開發的一套推理引擎,具有易用性和廣泛適用性,旨在優化大語言模型在GPU云服務器上的推理過程,通過優化和并行計算等技術手段,為您提供免費的高性能、低延遲推理服務。
DeepGPU-LLM的關聯布局圖如下所示:
主流模型:Qwen等四種比較主流的大語言模型,作為DeepGPU-LLM優化和加速的對象。
開源平臺:開源模型平臺(Modelscope和Huggingface)提供了大量的預訓練模型,該平臺提供了模型的存儲、管理和分發功能,方便您獲取和使用上述主流大語言模型。
模型架構:DeepGPU-LLM利用Tensor Parallel技術優化大語言模型在GPU云服務器上的推理過程,提供了高性能、低延遲的推理服務。
底層硬件:GPU實例安裝驅動和CUDA等基礎環境后,作為DeepGPU-LLM運行的基礎硬件,提供了強大的計算資源,支持大語言模型的高效推理。
功能介紹
DeepGPU-LLM的主要功能包括:
支持多GPU并行(Tensor Parallel)
將大模型分割到多個GPU上進行并行計算,從而提高計算效率。
支持多種主流模型
支持通義千問Qwen系列、Llama系列、ChatGLM系列以及Baichuan系列等主流模型,滿足不同場景下的模型推理。
支持fp8/fp16以及int8/int4低精度推理
目前支持權重量化、KV-Cache量化、GPTQ量化和AWQ量化四種不同量化模式,實現模型的低精度推理,在保證模型性能的同時降低計算資源的消耗。
支持多卡之間通信優化
用以提高多GPU并行計算的效率和速度。
支持offline模式和serving模式輸出
offline模式支持流式輸出和普通輸出;serving模式提供3類API接口(例如generate_cb、generate_cb_async、generate_cb_async_id調用函數)適配不同場景。
基礎環境依賴
DeepGPU-LLM所需的基礎環境依賴如下所示:
類別 | 規格或版本 | |
硬件依賴 | GPU規格 | SM=70、75、80、 86、 89、90(例如A800、A30、A10、V100, T4等) |
軟件依賴 | 操作系統 | Ubuntu 22.04、Ubuntu 20.04、CentOS系列和Alibaba Cloud Linux系列 |
CUDA版本 | 12.4、12.1、11.8、11.7 | |
PyTorch版本 | 2.4、2.3、2.1 | |
OpenMPI | 4.0.3版本及以上 |
安裝包及相關文件說明
使用DeepGPU-LLM處理大語言模型(LLM)在GPU上的推理優化時,需要您提前準備安裝包(獲取路徑:DeepGPU-LLM加速安裝包)。例如,安裝包名稱格式為deepgpu_llm-x.x.x+ptx.xcuxxx-py3-none-any.whl
時,具體說明如下:
deepgpu_llm-x.x.x
:指待安裝的DeepGPU-LLM版本號。ptx.x
:所支持的PyTorch版本號。cuxxx
:所支持的CUDA版本號。
下載DeepGPU-LLM安裝包后,您可以查看到主流模型的推理依賴代碼、主流模型權重轉換腳本以及安裝包提供的可運行示例代碼。
如何使用DeepGPU-LLM
在大語言模型推理場景下,如果您想通過推理引擎DeepGPU-LLM進行不同模型(例如Llama、ChatGLM、Baichuan、通義千問Qwen等模型)的推理優化,請參見安裝并使用DeepGPU-LLM。