本文中含有需要您注意的重要提示信息,忽略該信息可能對您的業務造成影響,請務必仔細閱讀。
EAS支持將從開源社區下載的模型或您自己訓練獲得的模型部署為推理服務或AI-Web應用。針對不同方式獲取的訓練模型,EAS支持不同的部署方式。此外,EAS還提供了一系列針對特定場景的部署方式,您可以通過控制臺快速將其部署為在線服務。本文介紹如何使用控制臺方式部署及管理服務。
背景信息
您可以通過控制臺部署及管理EAS。
控制臺部署支持自定義模型部署和場景化模型部署兩種方式:
自定義模型部署:自定義模型部署提供更靈活的部署方式,您可以通過鏡像、processor等方式快速進行AI-Web應用或推理服務的部署。
場景化模型部署:EAS提供了多種針對特定場景的部署解決方案,包括AI繪畫-SDWebUI部署、LLM大語言模型、大模型RAG對話系統、AI視頻生成-ComfyUI部署、ModelScope模型部署、HuggingFace模型部署、Triton部署和TFServing部署。對于這些不同的部署場景,均提供了簡易的部署方法。
EAS支持通過控制臺方式管理已部署的模型服務,包括:查看服務詳情、更新服務資源配置、更新服務版本、擴縮容等操作。
使用步驟
登錄PAI控制臺,在頁面上方選擇目標地域,并在右側選擇目標工作空間,然后單擊進入EAS。
在推理服務頁簽,單擊部署服務。在部署服務頁面,選擇并單擊相應的部署方式。
部署方式
描述
自定義模型部署
自定義部署
提供更靈活的部署方式。支持通過Processor的形式,或鏡像、模型、代碼、運行命令和三方庫的方式,將您自己的模型部署為在線服務或AI-Web應用。具體的參數配置說明,請參見自定義部署參數說明。
JSON獨立部署
根據輸入的JSON文件內容來完成模型部署。具體的參數配置說明,請參見服務模型所有相關參數說明。
場景化模型部署
一鍵部署基于開源SDWebUI繪畫的AIGC服務,提供Web應用和API調用兩種部署方式,通過用戶與計算資源分離實現企業級應用。
一鍵部署支持WebUI和API調用的LLM應用,您可以利用LangChain框架集成企業知識庫,以實現智能問答和自動化功能。通過Blade內置推理加速,實現簡單的部署方式及較高性價比的推理方案。
一鍵部署集成了大語言模型(LLM)和檢索增強生成(RAG)技術的對話系統服務。適用于問答、摘要生成和依賴外部知識的自然語言處理任務。
一鍵部署基于ComfyUI和Stable Video Diffusion模型的AI視頻生成服務,幫助您完成社交平臺短視頻內容生成、動畫制作等任務。
一鍵部署ModelScope開源模型,快速啟動模型服務。
利用基于Trition Server的推理服務引擎,將TensorRT、TensorFlow、PyTorch或ONNX等多種AI框架的模型一鍵部署為在線推理服務。
利用基于TensorFlow Serving的推理服務引擎,將Tensorflow標準的SavedModel格式的模型一鍵部署為在線推理服務。
參數配置完成后,單擊部署。等待一段時間,當服務狀態變為運行中時,表明服務部署成功。
自定義部署參數說明
基本信息
參數 | 描述 |
服務名稱 | 根據界面提示,自定義服務名稱。 |
所屬群組 | 服務分組擁有統一的流量入口,適用于灰度發布、藍綠部署、異構資源、異步推理等場景。詳情請參見服務群組。 |
環境信息
部署方式支持鏡像部署和processor部署。
鏡像部署:如果您想通過鏡像、代碼及模型掛載的方式快速進行AI推理服務的部署,則選擇該部署方式。
processor部署:如果您想通過模型和Processor(包括預置Processor和自定義Processor)進行推理服務的部署,則選擇該部署方式。
在復雜的模型推理場景中,例如AIGC、視頻處理等場景,推理耗時比較長,需要打開異步服務開關,實現異步推理服務,詳情請參見部署異步推理服務。
鏡像部署
鏡像部署支持異步服務和開啟Web應用。如果您使用的鏡像中集成了WebUI應用的部分,開啟Web應用后平臺會自動開啟web服務器,從而幫助您直接訪問前端WebUI頁面。
參數 | 描述 |
鏡像配置 | 支持以下幾種配置方式: |
模型配置 | 支持通過以下方式配置模型文件。
|
運行命令 | 鏡像的啟動命令,例如: 同時您需要輸入端口號,即鏡像啟動后監聽的本地HTTP端口。 重要 由于EAS引擎監聽固定的8080和9090端口,因此端口需要避開8080和9090端口。 |
代碼配置 | 支持使用以下幾種進行代碼配置。
|
三方庫配置 | 支持以下兩種方式配置第三方庫。
|
環境變量 | 配置變量名和變量值:
|
processor部署
部署方式選擇processor部署時,參數配置如下表所示:
參數 | 描述 |
模型配置 | 您可以通過以下任何一種方式配置模型文件:
|
Processor種類 | 支持所有的預置官方Processor和自定義Processor,關于預置官方Processor的更多信息,詳情請參見預置Processor使用說明。 |
模型類別 | 當Processor種類選擇EasyVision(CPU)、EasyVision(GPU)、EasyTransfer(CPU)、EasyTransfer(GPU)、EasyNLP、EasyCV時,支持配置該參數。上述每個Processor種類對應的模型類別不同,請根據業務使用場景選擇。 |
Processor語言 | 當Processor種類選擇自定義processor時,支持配置。 支持選擇cpp、java及python。 |
Processor包 | 當Processor種類選擇自定義processor時,支持配置。您可以通過以下任何一種方式配置Processor包:
|
Processor主文件 | 當Processor種類選擇自定義processor時,支持配置。自定義Processor包的主文件。 |
掛載配置 | 支持使用以下幾種掛載方式。
|
環境變量 | 配置變量名和變量值:
|
資源部署
在資源部署區域配置以下參數。
參數 | 描述 |
資源類型 | 支持選擇公共資源或已購買(創建)的專屬資源組。如何購買專屬資源組,詳情請參見使用專屬資源組。 說明 建議在任務量相對較少、對任務時效性要求不高的場景下使用公共資源組。 |
GPU共享 | 當資源類型選擇EAS資源組時,支持打開GPU共享功能。具體配置方法,請參見GPU共享。 說明 當前GPU共享功能僅供白名單用戶受限申請使用,如果您希望使用GPU共享功能,請先提交工單,申請添加GPU共享功能使用白名單。 |
實例數 | 建議配置多個服務實例,以避免單點部署帶來的風險。 當資源類型選擇 EAS資源組時,您需要為每個服務實例配置GPU、CPU和內存(GB)參數。 |
部署資源 | 當資源類型選擇公共資源時:
如果您領取了免費資源包,支持在華北2(北京)、華東2(上海)、華東1(杭州)、華南1(深圳)、西南1(成都)、華南2(河源)地域,使用試用活動頁簽的免費機型,詳情請參見新用戶免費試用。 |
彈性資源池 | 僅資源類型選擇EAS資源組時,支持配置該參數。 您可以打開開啟彈性資源池開關并參考部署資源進行公共資源配置,為部署在專屬資源組中的服務開啟彈性資源池能力。 彈性資源池配置完成后,當服務擴容時遇到機器資源不足時,新擴出來的實例會自動啟動在已配置的按量付費的公共資源上,并以按量計費的方式來進行計費;在縮容時會優先縮減公共資源組中的服務實例。更多詳細內容,請參見彈性資源池。 |
額外系統盤 | 資源類型選擇公共資源或者選擇EAS資源組且配置彈性資源池時,支持配置該參數。 為EAS服務配置額外系統盤,單位為GB,取值范圍為0~2000 GB。EAS免費贈送30 GB系統盤,如果此處配置20 GB,則實際可用的存儲空間為: 額外購買的系統盤按容量和使用時長計費,計費詳情請參見模型在線服務(EAS)計費說明。 |
專有網絡(可選)
在專有網絡區域,配置專有網絡(VPC)、交換機和安全組名稱參數,為部署在公共資源組中的EAS服務開通VPC高速直連。詳情請參見配置網絡連通。
網絡連通后,該VPC環境中的ECS服務器等即可通過創建的彈性網卡訪問部署在公共資源組中的EAS服務,同時EAS服務也可以訪問VPC環境中的其他云產品。
服務功能(可選)
在服務功能區域,支持配置以下參數:
參數 | 描述 |
內存緩存加速 | EAS通過將模型文件緩存到本地目錄中,來提高讀取數據的速度,減少延時。更多關于該功能的詳細介紹及配置方法,請參見內存緩存本地目錄。 |
專屬網關 | 通過配置專屬網關,不僅可以增強訪問控制與安全性,還可以提升網絡訪問服務的效率。如何創建專屬網關以及配置訪問控制,詳情請參見服務專屬網關。 |
LLM智能路由 | 打開開關,并選擇LLM智能路由。如果沒有可選的LLM智能路由,您可以單擊新建LLM智能路由進行創建,詳情請參見LLM智能路由:提升LLM推理系統整體效率。 LLM智能路由是一種特殊的EAS服務,可以與LLM推理服務綁定。當LLM推理服務有多個后端實例時,LLM智能路由能夠根據后端負載進行動態分發,保證后端實例處理的算力和顯存盡可能均勻,提升集群資源使用水位。 |
健康檢查 | 打開健康檢查開關,為服務配置健康檢查功能。更多關于該功能的詳細介紹及配置方法,請參見健康檢查。 |
共享內存 | 配置實例的共享內存,直接對內存進行讀寫操作,無需數據的復制或傳輸。單位為GB。 |
啟用GRPC | 表示是否開啟服務網關的GRPC連接,取值如下:
|
服務響應超時時長 | 服務端為每個請求配置的超時時間,默認為5秒。 |
滾動更新 |
|
優雅退出 |
|
保存調用記錄 | 支持將服務所有的請求和響應記錄持久化保存到MaxCompute數據表或日志服務SLS中。打開開關,并選擇保存記錄方式:
|
任務模式 | 打開開關,您可以將推理服務部署成彈性Job服務。更多關于彈性Job服務的內容介紹,請參見彈性Job服務功能介紹。 |
服務配置
在服務配置區域,顯示以上服務配置對應的JSON配置文件內容。
您可以根據需要補充一些在界面不支持配置的配置項,詳情請參見服務模型所有相關參數說明。
基于JSON配置文件,您可以通過EASCMD客戶端部署模型,詳情請參見創建服務。
管理EAS模型在線服務
您可以在模型在線服務頁面的推理服務頁簽,查看已部署的服務列表,并對目標服務進行停止、啟動、刪除等操作。
停止或刪除模型服務,會導致依賴該服務的相關請求失敗,請謹慎操作。
查看服務詳情
單擊目標服務名稱,進入服務詳情頁面。在該頁面查看服務基本信息、服務實例和服務配置等。
在服務詳情頁面上方,您可以切換至不同的功能頁簽,以查看服務監控、日志、部署事件等信息。
查看容器日志
目前EAS在服務實例維度已經實現了容器日志的聚合和過濾,一旦服務實例運行失敗,您可以通過查看容器日志來排查報錯信息。具體操作步驟如下:
單擊目標服務名稱,進入服務詳情頁面。
在服務實例區域,單擊操作列下的容器列表。
在容器列表對話框中,單擊操作列下的日志。
更新服務資源配置
在服務詳情頁面,單擊資源信息區域的資源配置。
更新已有服務版本
在推理服務列表中,單擊目標服務操作列下的更新,來更新服務版本。
警告服務更新過程中將暫時中斷運行,可能導致依賴此服務的請求失敗,請務必謹慎操作。
服務更新完成后,單擊當前版本,查看版本信息或切換服務版本。
擴縮容
在推理服務列表中,單擊目標服務操作列下的擴縮容,配置實例數,來提高或減少指定模型服務占用的資源。
彈性伸縮
根據業務需求,配置服務以自動調整EAS其占用的資源。具體操作,請參見方式一:通過控制臺管理水平自動擴縮容功能。
相關文檔
服務部署成功后,您可以通過在線調試功能,來測試服務運行是否正常,詳情請參見服務在線調試。
場景化模型部署成功后,您可以調用該服務來驗證模型效果,詳情請參見EAS使用案例匯總。
關于EAS其他的部署方式,請參見服務部署:Designer或服務部署:EASCMD或DSW。
部署服務、管理服務等EAS相關API,詳情請參見EAS。