本文中含有需要您注意的重要提示信息,忽略該信息可能對您的業務造成影響,請務必仔細閱讀。
模型部署可以為您創建專屬的推理服務。本文介紹了模型部署的基本概念、使用方法和配置指南,幫助您為大語言模型配置專屬的模型推理服務。
功能概述
簡單來說,模型部署是指將大模型運行在專屬的計算資源上,使模型在獨立的運行環境中高效、可靠地運行,并為業務應用提供推理服務。
支持的模型
模型部署支持預置模型和自定義模型,對比如下:
模型類別 | 定義 | 特點 | 為什么選擇模型部署 |
預置模型 | 百煉預先部署在公用云服務器上的大語言模型。 | 泛用性高,用戶基礎較廣,涵蓋了通義系列模型、行業大模型、第三方模型等。 例如:通義千問-Plus模型。 | 部署后,您將獲得更高的并發量。 |
自定義模型 | 使用百煉微調的個性化大語言模型。 | 適應特定領域的語義環境,具有更高的準確性和專業性,以及更好的上下文理解能力。 例如:基于情感分類任務微調的模型。 | 部署后,您才可以使用這類模型,評測模型的微調效果。同時您可以獲得更穩定的模型服務、更高的并發量。 |
快速配置
阿里云百煉支持兩種模型部署方式:百煉控制臺(0代碼)和API(全代碼)。兩種部署方式完全等價,您可以根據業務需求決定部署方式。
百煉控制臺部署(0代碼)
操作步驟 | 示意圖 |
| |
| |
|
進階配置
通過 API 部署模型(全代碼)
除了在控制臺操作,百煉支持通過 HTTP 請求執行模型部署。以下是簡潔的操作指南:
前提準備
獲取 API-KEY:確保已獲取并配置好 API-KEY,參考獲取API Key及配置API Key到環境變量。
由于代碼操作的特殊性,當您在執行付費操作時(例如創建或更新部署任務),百煉不會向您確認消費數額,因此可能產生意料之外的費用。強烈建議您在執行下列操作前,充分了解各項操作可能產生的影響,以及百煉模型部署服務的單價和計費規則。
常見操作步驟
列舉可部署模型
獲取可部署模型列表:
curl 'https://dashscope.aliyuncs.com/api/v1/deployments/models' \ --header "Authorization: Bearer $DASHSCOPE_API_KEY" \ --header 'Content-Type: application/json'
返回示例:
{ "request_id": "cb68e88f-d3fc-4aed-b8bc-2c76c7e05607", "output": { "models": [ { "model_name": "qwen-plus", "base_capacity": 2 }, ], "page_no": 1, "page_size": 50, "total": 1 } }
model_name
:模型名稱base_capacity
:每個實例需要的最小算力單元數量創建部署任務
部署模型:
curl 'https://dashscope.aliyuncs.com/api/v1/deployments' \ --header "Authorization: Bearer $DASHSCOPE_API_KEY" \ --header 'Content-Type: application/json' \ --data '{ "model_name": "<YOUR_MODEL_NAME>", "capacity": 1, "suffix": "sample" }'
model_name
:待部署的模型capacity
:分配的算力單元,需為base_capacity
(基礎算力單元) 的整數倍suffix
(可選):用于區分多個部署任務查詢部署任務狀態
查看某個任務的狀態:
curl 'https://dashscope.aliyuncs.com/api/v1/deployments/qwen-v1-ft-202305099980-fac9-sample' \ --header 'Authorization: Bearer <YOUR-DASHSCOPE-API-KEY>' \ --header 'Content-Type: application/json'
調用部署任務
使用已部署模型:
curl --location 'https://dashscope.aliyuncs.com/api/v1/services/aigc/text-generation/generation' \ --header "Authorization: Bearer $DASHSCOPE_API_KEY" \ --header 'Content-Type: application/json' \ --data '{ "model": "qwen-plus", "input":{ "messages":[ { "role": "system", "content": "You are a helpful assistant." }, { "role": "user", "content": "你是誰?" } ] }, "parameters": { "result_format": "message" } }'
更新部署任務(可選)
動態調整部署任務的算力單元,實現擴縮容:
curl --request PUT 'https://dashscope.aliyuncs.com/api/v1/deployments/qwen-v1-ft-20230703-cx7f/scale' \ --header "Authorization: Bearer $DASHSCOPE_API_KEY" \ --header 'Content-Type: application/json' \ --data '{ "capacity":8 }'
查詢所有部署任務(可選)
查看所有任務狀態:
curl 'https://dashscope.aliyuncs.com/api/v1/deployments' \ --header "Authorization: Bearer $DASHSCOPE_API_KEY" \ --header 'Content-Type: application/json'
刪除部署任務(可選)
警告刪除已部署的模型,可能會導致該模型關聯的線上業務發生中斷,請謹慎操作。
下線已部署模型:
curl --request DELETE 'https://dashscope.aliyuncs.com/api/v1/deployments/<deployed_model>' \ --header "Authorization: Bearer $DASHSCOPE_API_KEY" \ --header 'Content-Type: application/json'
選擇付費方式
選擇計費模式,您可以前往計費項與定價對比兩種計費模式。 在快速配置中,您已經了解了按量付費的方式,這里提供了包月資源的簡介。 包月資源:您需要先付費購買資源包,操作步驟詳見示意圖。 重要 實例規格支持不同的預置模型。 請您在購買頁面確認:您選擇的預置模型與實例規格是否對應。 |
附錄
名詞解釋
名詞 | 解釋 |
實例 | 是模型部署量的基本單位,表示每個部署任務提供的推理服務數量。實例數量越多,部署提供的推理服務越多,并發性能越好。通過動態調整實例數量,模型能夠應對流量變化,確保高峰期的高效響應。 |
基礎算力單元 | 是模型的一項屬性,表示部署模型到單個實例上所需的算力單元數量。比如,qwen-plus模型的基礎算力單元是8,代表部署qwen-plus到一個實例上需要8個算力單元。 |
QPM(Queries Per Minute,每分鐘請求數) | 是衡量模型推理并發性能的一個指標,表示模型每分鐘可處理的請求數量。實例越多,QPM越高,模型的響應能力越強,能夠更好地應對高并發請求。 |
部署后并發性能參考表
支持的模型列表以控制臺為準,如您有疑問請訪問技術支持頁面獲取幫助。
模型名稱 | 基礎算力單元 | 每實例參考處理能力 |
qwen-plus | 8 | 70 QPM |
后續操作
如您希望了解計費信息,請訪問計費項與定價。
如您希望了解API詳情,請訪問模型部署。
如您希望評測模型微調的效果,請訪問模型評測。
常見問題
可以上傳和部署自己的模型嗎?
暫不支持上傳和部署自有模型,建議您持續關注百煉最新動態。此外,阿里云人工智能平臺 PAI 提供了部署自有模型的功能,您可以參考PAI模型部署與推理了解部署方法。
如何大幅提高模型并發量呢?
如果您需要進一步提高模型的RPM或TPM,請通過郵箱申請,告知uid、期望申請的模型和RPM和TPM,請郵件聯系:modelstudio@service.aliyun.com。