久久综合亚洲鲁鲁五月天 ,久久九九久精品国产,欧美亚洲精品中文字幕乱码

DeepGPU-LLM是阿里云研發的基于GPU云服務器的大語言模型（Large Language Model，LLM）的推理引擎，在處理大語言模型任務中，該推理引擎可以為您提供高性能的大模型推理服務。

產品簡介

DeepGPU-LLM作為阿里云開發的一套推理引擎，具有易用性和廣泛適用性，旨在優化大語言模型在GPU云服務器上的推理過程，通過優化和并行計算等技術手段，為您提供免費的高性能、低延遲推理服務。

DeepGPU-LLM的關聯布局圖如下所示：

主流模型：Qwen等四種比較主流的大語言模型，作為DeepGPU-LLM優化和加速的對象。
開源平臺：開源模型平臺（Modelscope和Huggingface）提供了大量的預訓練模型，該平臺提供了模型的存儲、管理和分發功能，方便您獲取和使用上述主流大語言模型。
模型架構：DeepGPU-LLM利用Tensor Parallel技術優化大語言模型在GPU云服務器上的推理過程，提供了高性能、低延遲的推理服務。
底層硬件：GPU實例安裝驅動和CUDA等基礎環境后，作為DeepGPU-LLM運行的基礎硬件，提供了強大的計算資源，支持大語言模型的高效推理。

DeepGPU-LLM的主要功能包括：

支持多GPU并行（Tensor Parallel）
將大模型分割到多個GPU上進行并行計算，從而提高計算效率。
支持多種主流模型
支持通義千問Qwen系列、Llama系列、ChatGLM系列以及Baichuan系列等主流模型，滿足不同場景下的模型推理。
支持fp8/fp16以及int8/int4低精度推理
目前支持權重量化、KV-Cache量化、GPTQ量化和AWQ量化四種不同量化模式，實現模型的低精度推理，在保證模型性能的同時降低計算資源的消耗。
支持多卡之間通信優化
用以提高多GPU并行計算的效率和速度。
支持offline模式和serving模式輸出
offline模式支持流式輸出和普通輸出；serving模式提供3類API接口（例如generate_cb、generate_cb_async、generate_cb_async_id調用函數）適配不同場景。

DeepGPU-LLM所需的基礎環境依賴如下所示：

類別		規格或版本
硬件依賴	GPU規格	SM=70、75、80、 86、 89、90（例如A800、A30、A10、V100, T4等）
軟件依賴	操作系統	Ubuntu 22.04、Ubuntu 20.04、CentOS系列和Alibaba Cloud Linux系列
	CUDA版本	12.4、12.1、11.8、11.7
	PyTorch版本	2.4、2.3、2.1
	OpenMPI	4.0.3版本及以上

使用DeepGPU-LLM處理大語言模型（LLM）在GPU上的推理優化時，需要您提前準備安裝包（獲取路徑：DeepGPU-LLM加速安裝包）。例如，安裝包名稱格式為deepgpu_llm-x.x.x+ptx.xcuxxx-py3-none-any.whl時，具體說明如下：

下載DeepGPU-LLM安裝包后，您可以查看到主流模型的推理依賴代碼、主流模型權重轉換腳本以及安裝包提供的可運行示例代碼。

在大語言模型推理場景下，如果您想通過推理引擎DeepGPU-LLM進行不同模型（例如Llama、ChatGLM、Baichuan、通義千問Qwen等模型）的推理優化，請參見安裝并使用DeepGPU-LLM。