MaxFrame是由阿里云自研的分布式計算框架,支持Python編程接口、兼容Pandas接口且自動進行分布式計算。您可利用MaxCompute的海量計算資源及數據進行大規模數據處理、可視化數據探索分析以及科學計算、ML/AI開發等工作。
關于MaxCompute分布式計算框架MaxFrame服務正式商業化公告詳情,請參見2024年09月26日-MaxCompute分布式計算框架MaxFrame服務正式商業化公告。
背景信息
在當今數據驅動時代,大數據處理和人工智能(AI)技術的高效應用成為了企業和研究機構不可或缺的一部分。Python憑借其豐富的第三方開發生態(例如NumPy、Pandas和Scikit-learn)在數據科學領域內提供了強大的支持,但這些工具往往受限于單機或單核計算能力,難以滿足分布式大數據處理的需求。
為滿足用戶在Python生態中日益增長的高效大數據處理和AI開發需求,MaxCompute提供了基于Python編程接口的分布式計算框架MaxFrame,可直接使用云原生大數據服務MaxCompute海量計算資源進行分布式執行,同時與MaxCompute Notebook、鏡像管理等功能共同構成了MaxCompute Python開發生態。
MaxFrame簡介
MaxFrame分布式計算框架,支持Python編程接口,并能直接利用MaxCompute的計算資源和數據接口,使得Python開發者可以更加高效、便捷地進行大規模數據處理和AI模型開發。MaxFrame不僅完全兼容Pandas接口,且自動實現分布式處理,您能夠以更熟悉、高效的方式利用MaxCompute海量計算資源及數據完成數據處理、可視化探索、科學計算及ML/AI開發工作。架構圖如下:
特點優勢
更熟悉的開發習慣
MaxFrame提供Python編程接口,百分百兼容Pandas算子,且算子提交至MaxCompute自動分布式執行,不再受本地資源大小限制。
更高效的數據處理能力
MaxFrame直接在MaxCompute集群中進行數據分布式計算,運行時無需將數據拉取至本地處理,消除了不必要的本地數據傳輸,提高作業執行效率。
更便捷的開發體驗
MaxFrame已與MaxCompute Notebook、DataWorks集成,提供開箱即用的交互式開發環境及離線調度能力;MaxFrame支持在代碼開發中直接引用MaxCompute內置鏡像(Pandas、Numpy、XGBoost等)及用戶自定義鏡像,且支持Python3.7和Python3.11版本,無需考慮復雜的環境準備及兼容問題。
適用場景
MaxCompute MaxFrame使用場景如下:
Python生態開發:對于需要開箱即用的Python環境,并迅速進行數據處理、數據科學和交互式數據探索的開發人員而言,MaxFrame提供了一個理想的解決方案。
大規模數據分析與處理:當數據量龐大、處理邏輯復雜時,MaxFrame借助MaxCompute海量數據和計算資源的分布式能力,顯著提高數據分析、處理及數據挖掘的開發效率。
Data+AI開發:對于整個分布式數據開發和模型開發過程依賴于第三方或自定義鏡像的場景,MaxFrame提供完整的支持,以滿足從數據處理到AI模型訓練與部署的需要。
計費說明
MaxFrame按照作業計算資源使用量進行計費,支持按量付費及包年包月兩種付費方式。關于計費詳情,請參見計算費用(包年包月)和計算費用(按量付費)。
支持的工具
MaxFrame支持在本地環境、DataWorks中使用。詳情請參見準備工作。
技術支持
若您在使用MaxFrame的過程中有任何問題,可使用釘釘掃描如下二維碼加入MaxFrame官方用戶支持群,MaxFrame團隊將全力為您提供技術支持。