模型壓縮是指通過各種技術和方法減少機器學習模型的大小和計算復雜度,同時盡量保持其預測性能的過程。隨著深度學習模型變得越來越復雜和龐大,模型壓縮變得尤為重要,尤其是在資源受限的環境中,可有效減少存儲和計算資源的使用。
簡介
阿里云PAI-Model Gallery支持基于Weight-only Quantization技術的模型量化方法,通過采用MinMax-8Bit或MinMax-4Bit量化策略,可以將模型的浮點數參數和量化到8位或4位整數表示,這種方法旨在減少模型大小和計算復雜度,使其能夠在資源受限的環境中高效部署深度學習模型,同時保持較好的性能表現。
壓縮模型
訓練模型。
當前支持對訓練后的模型進行壓縮,因此需要對預訓練模型進行訓練,詳情請參見訓練模型。
待模型訓練完成之后,在任務詳情頁單擊右上角壓縮。
配置壓縮任務。
關鍵配置如下:
參數
說明
壓縮方式
當前僅支持基于Weight-only Quantization技術的模型量化方法,即將模型的權重參數轉換到更低的bit位,降低模型推理的顯存占用。
壓縮策略
MinMax-8Bit:使用最小值-最大值(min-max)縮放方法將模型量化到8位整數表示。
MinMax-4Bit:使用最小值-最大值(min-max)縮放方法將模型量化到4位整數表示。
其他參數配置同訓練模型。
單擊壓縮。
根據頁面提示操作,會跳轉到任務詳情頁面。您可以查看壓縮任務的基本信息、實時狀態、任務日志等信息。
查看壓縮任務
在PAI-Model Gallery > 任務管理 > 壓縮任務中查看壓縮任務。
后續操作
文檔內容是否對您有幫助?