日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

什么是推理引擎DeepGPU-LLM

DeepGPU-LLM是阿里云研發的基于GPU云服務器的大語言模型(Large Language Model,LLM)的推理引擎,在處理大語言模型任務中,該推理引擎可以為您提供高性能的大模型推理服務。

產品簡介

DeepGPU-LLM作為阿里云開發的一套推理引擎,具有易用性和廣泛適用性,旨在優化大語言模型在GPU云服務器上的推理過程,通過優化和并行計算等技術手段,為您提供免費的高性能、低延遲推理服務。

DeepGPU-LLM的關聯布局圖如下所示:

image
  • 主流模型:Qwen等四種比較主流的大語言模型,作為DeepGPU-LLM優化和加速的對象。

  • 開源平臺:開源模型平臺(Modelscope和Huggingface)提供了大量的預訓練模型,該平臺提供了模型的存儲、管理和分發功能,方便您獲取和使用上述主流大語言模型。

  • 模型架構:DeepGPU-LLM利用Tensor Parallel技術優化大語言模型在GPU云服務器上的推理過程,提供了高性能、低延遲的推理服務。

  • 底層硬件:GPU實例安裝驅動和CUDA等基礎環境后,作為DeepGPU-LLM運行的基礎硬件,提供了強大的計算資源,支持大語言模型的高效推理。

功能介紹

DeepGPU-LLM的主要功能包括:

  • 支持多GPU并行(Tensor Parallel)

    將大模型分割到多個GPU上進行并行計算,從而提高計算效率。

  • 支持多種主流模型

    支持通義千問Qwen系列、Llama系列、ChatGLM系列以及Baichuan系列等主流模型,滿足不同場景下的模型推理。

  • 支持fp8/fp16以及int8/int4低精度推理

    目前支持權重量化、KV-Cache量化、GPTQ量化和AWQ量化四種不同量化模式,實現模型的低精度推理,在保證模型性能的同時降低計算資源的消耗。

  • 支持多卡之間通信優化

    用以提高多GPU并行計算的效率和速度。

  • 支持offline模式和serving模式輸出

    offline模式支持流式輸出和普通輸出;serving模式提供3類API接口(例如generate_cb、generate_cb_async、generate_cb_async_id調用函數)適配不同場景。

基礎環境依賴

DeepGPU-LLM所需的基礎環境依賴如下所示:

類別

規格或版本

硬件依賴

GPU規格

SM=70、75、80、 86、 89、90(例如A800、A30、A10、V100, T4等)

軟件依賴

操作系統

Ubuntu 22.04、Ubuntu 20.04、CentOS系列和Alibaba Cloud Linux系列

CUDA版本

12.4、12.1、11.8、11.7

PyTorch版本

2.4、2.3、2.1

OpenMPI

4.0.3版本及以上

安裝包及相關文件說明

使用DeepGPU-LLM處理大語言模型(LLM)在GPU上的推理優化時,需要您提前準備安裝包(獲取路徑:DeepGPU-LLM加速安裝包)。例如,安裝包名稱格式為deepgpu_llm-x.x.x+ptx.xcuxxx-py3-none-any.whl時,具體說明如下:

  • deepgpu_llm-x.x.x:指待安裝的DeepGPU-LLM版本號。

  • ptx.x:所支持的PyTorch版本號。

  • cuxxx:所支持的CUDA版本號。

下載DeepGPU-LLM安裝包后,您可以查看到主流模型的推理依賴代碼、主流模型權重轉換腳本以及安裝包提供的可運行示例代碼。

如何使用DeepGPU-LLM

在大語言模型推理場景下,如果您想通過推理引擎DeepGPU-LLM進行不同模型(例如Llama、ChatGLM、Baichuan、通義千問Qwen等模型)的推理優化,請參見安裝并使用DeepGPU-LLM