計算
MaxCompute向用戶提供了多種經典的分布式計算模型,提供TB、PB、EB級數據計算能力,能夠更快速的解決用戶海量數據計算問題,有效降低企業(yè)成本。
功能集 |
功能 |
功能描述 |
參考文檔 |
SQL開發(fā) |
DDL語句 |
DDL語句 |
DDL |
DML操作 |
DML操作 |
DML操作 | |
DQL操作 |
DQL操作 |
DQL操作 | |
函數開發(fā) |
內建函數 |
MaxCompute提供豐富的內建函數,方便用戶進行數據分析和數據加工。 |
內建函數 |
自定義函數 |
MaxCompute支持用戶自定義函數,支持包括UDF、UDT、UDJ等類型。 |
||
查詢加速 MCQA |
查詢加速 MCQA |
對數據查詢作業(yè)進行加速優(yōu)化,完全兼容原MaxCompute查詢功能。 |
MCQA |
物化視圖 |
物化視圖 |
MaxCompute提供物化視圖智能計算加速,為用戶智能分析推薦創(chuàng)建物化視圖。 |
物化視圖 |
擴展引擎 |
機器學習 SQL ML |
SQLML是MaxCompute提供的應用機器學習能力的SQL語言入口。MaxCompute SQLML在底層依賴機器學習PAI平臺做模型創(chuàng)建、預測、評估等操作。 |
SQL ML |
MapReduce |
MaxCompute支持MapReduce編程接口,提供原生MapReduce及擴展MapRuduce兩個版本編程接口。 |
MapReduce | |
Graph |
MaxCompute Graph是一套面向迭代的圖計算處理框架。 |
Graph | |
Spark |
Spark on MaxCompute是MaxCompute提供的兼容開源Spark的計算服務。它在統(tǒng)一的計算資源和數據集權限體系之上,提供Spark計算框架,支持提交運行Spark作業(yè),滿足更豐富的數據處理分析需求。 |
Spark | |
向量計算 Proxima CE |
Proxima CE 是基于Proxima2.x內核提供的超大規(guī)模離線向量檢索引擎,用于支持批量離線向量檢索任務,包括基礎的向量檢索、多類目檢索及百萬TopK檢索等功能。 |
向量計算 Proxima CE | |
數據科學計算 |
PyODPS |
提供Python SDK,可在DataWorks、PAI Notebook或本地環(huán)境中使用PyODPS進行開發(fā)。 |
PyODPS |
Mars |
基于張量的統(tǒng)一分布式計算框架。Mars能利用并行和分布式技術,為Python數據科學棧加速,兼容Numpy、Pandas和Scikit-learn。 |
數據科學 Mars | |
MaxFrame |
MaxFrame是由阿里云自研的分布式計算框架,提供了一套兼容MaxCompute計算資源及數據接口的Python生態(tài)環(huán)境 |
MaxFrame | |
鏡像管理 |
MaxCompute提供鏡像管理功能,內置數據分析、科學計算、機器學習(如Pandas、Numpy、Scikit-learn、Xgboost)等各類常用鏡像,并已對鏡像進行預先加熱,您可在SQL UDF、PyODPS開發(fā)等場景中直接引用已有鏡像,無需執(zhí)行繁瑣的鏡像打包、上傳等流程 |
鏡像管理 | |
MaxCompute Notebook |
MaxCompute Notebook是由MaxCompute提供的全托管、交互式數據分析挖掘模塊,為數據工程師、數據分析師及數據科學家等人員提供Web交互式開發(fā)環(huán)境。支持用戶通過SQL、PyODPS、Python等進行數據分析、探索,挖掘數據的價值,完成大數據與AI的融合應用開發(fā)。 |
Notebook |
存儲
表是MaxCompute的數據存儲單元,MaxCompute中不同類型作業(yè)的操作對象(輸入、輸出)都是表;MaxCompute采用列壓縮存儲格式,通常情況下具備5倍壓縮能力;MaxCompute數據存儲格式升級為AliORC,具備更高存儲性能。
功能集 |
功能 |
功能描述 |
參考文檔 |
內部表 |
非分區(qū) |
在采集通道數據量較小的情況下,適合采取非分區(qū)表設計,將終端類型和采集時間設計成標準列字段。 |
非分區(qū)表 |
分區(qū) |
分區(qū)表是指擁有分區(qū)空間的表,即在創(chuàng)建表時指定表內的一個或者某幾個字段作為分區(qū)列。分區(qū)表實際就是對應分布式文件系統(tǒng)上的獨立的文件夾,一個分區(qū)對應一個文件夾,文件夾下是對應分區(qū)所有的數據文件。 |
分區(qū)表 | |
外部表 |
OSS外部表 |
可以通過OSS外部表訪問OSS目錄下的數據文件中的非結構化數據,或將MaxCompute項目中的數據寫入OSS目錄。 |
OSS外部表 |
Tablestore外部表 |
將Tablestore的數據納入MaxCompute上的計算生態(tài),實現(xiàn)多種數據源之間的無縫連接。 |
Tablestore外部表 | |
Hologres外部表 |
MaxCompute外部表支持使用數據庫JDBC驅動機制訪問Hologres數據源數據。 |
Hologres外部表 | |
RDS外部表 |
可通過MaxCompute將數據加載至RDS的表中。 |
RDS外部表 | |
HBase外部表 |
MaxCompute支持通過創(chuàng)建HBase外部表來關聯(lián)阿里云HBase標準版或增強版集群中的表。 |
HBase外部表 |
開發(fā)和分析工具
根據業(yè)務需要用戶可選擇連接MaxCompute的開發(fā)工具,進行后續(xù)MaxCompute的使用及開發(fā)操作。
功能集 |
功能 |
功能描述 |
參考文檔 |
Odpscmd |
客戶端 odpscmd |
MaxCompute提供客戶端odpscmd,訪問MaxCompute項目并運行命令。 |
客戶端 odpscmd |
MC Studio |
MaxCompute Studio |
基于流行的集成開發(fā)平臺IntelliJ IDEA的開發(fā)插件,幫助用戶便捷、快速地進行數據分析。 |
MaxCompute Studio |
SQL分析 |
SQL分析 |
MaxCompute控制臺提供SQL分析功能,方便用戶快速執(zhí)行SQL語句操作。 |
SQL分析 |
JDBC連接 |
JDBC連接 |
通過標準的JDBC接口基于MaxCompute執(zhí)行海量數據的分布式計算查詢。 |
JDBC連接 |
阿里云產品集成 |
數據開發(fā) DataWorks DataStudio |
基于MaxCompute項目通過DataWorks DataStuido以可視化方式實現(xiàn)全方位的數據開發(fā)、數據集成、數據服務等功能,支持周期性調度作業(yè)。 |
數據開發(fā) DataWorks DataStudio |
數據分析 SQL查詢 |
SQL查詢功能支持通過編寫SQL語句的方式對有查詢權限的數據源進行快速的數據查詢與分析。 |
數據分析 SQL查詢 | |
第三方工具 |
數據庫管理工具 |
通過數據庫管理工具連接MaxCompute,目前主要支持DBeaver、DataGrip、SQL Workbench/J。 |
數據庫管理工具 |
ETL工具連接 |
通過ETL工具連接MaxCompute并進行開發(fā)作業(yè)調度,目前主要支持Kettle、Apache Airflow、Azkaban。 |
ETL工具連接 | |
BI工具對接 |
支持Tableau、FineBI、FineReport、Davinci、Superset、Yonghong BI、Quick BI、觀遠BI、網易有數BI。 |
BI工具對接 |
數據傳輸遷移
MaxCompute提供多種渠道,以便從業(yè)務系統(tǒng)或外部數據源寫入數據到MaxCompute,或者從MaxCompute寫出數據到外部系統(tǒng)或外部數據源。
功能集 |
功能 |
功能描述 |
參考文檔 |
上傳數據 |
Tunnel(離線) |
MaxCompute的客戶端(odpscmd)、Studio等數據上傳下載工具均通過Tunnel功能實現(xiàn)數據的上傳與下載。 |
Tunnel(離線) |
Kafka(離線與實時) |
支持將消息隊列Kafka版數據導入MaxCompute。 |
Kafka(離線與實時) | |
Logstash(流式) |
支持將開源Logstash收集的日志數據寫入MaxCompute。 |
Logstash(流式) | |
阿里云Flink(流式) |
支持使用Flink在高并發(fā)、高QPS場景下寫入MaxCompute。 |
阿里云Flink(流式) | |
DataHub(實時) |
DataHub是MaxCompute提供的流式數據處理(Streaming Data)服務,它提供流式數據的發(fā)布(Publish)和訂閱 (Subscribe)的功能構建基于流式數據的分析和應用。 |
DataHub(實時) | |
SLS投遞 |
將日志服務采集的數據投遞至MaxCompute。 |
SLS投遞 | |
下載數據 |
客戶端(odpscmd)或Studio |
MaxCompute的客戶端(odpscmd)、Studio等數據上傳下載工具均通過Tunnel功能實現(xiàn)數據的上傳與下載。 |
客戶端(odpscmd)或Studio |
DataWorks數據下載 |
MaxCompute支持通過DataWorks的數據集成功能將MaxCompute中的數據以離線方式導出至其他數據源。 |
DataWorks數據下載 | |
數據遷移 |
相關工具 |
支持通過MaxCompute客戶端(Tunnel)、DataWorks數據集成(Tunnel)、DTS(Tunnel)、Sqoop(Tunnel)、Kettle(Tunnel)、Flume(DataHub)、Fluentd(DataHub)、LogStash(DataHub)、OGG(DataHub)、MMA等工具進行數據遷移上云。 |
相關工具 |
MMA遷移工具 |
MMA(MaxCompute Migration Assist)是一款MaxCompute數據遷移工具,適合大批量數據傳輸。 |
MMA遷移工具 |
安全&合規(guī)&治理
MaxCompute提供完善的項目及數據安全管理,支持對項目內用戶配置不同的權限管控策略。
功能集 |
功能 |
功能描述 |
參考文檔 |
安全 |
備份與恢復 |
MaxCompute提供數據備份與恢復功能,系統(tǒng)會自動備份數據的歷史版本(例如被刪除或修改前的數據)并保留一定時間,可以對保留周期內的數據進行快速恢復,避免因誤操作丟失數據。 |
備份與恢復 |
數據加密 |
MaxCompute支持通過密鑰管理服務KMS(Key Management Service)對數據進行加密存儲,提供數據靜態(tài)保護能力,滿足企業(yè)監(jiān)管和安全合規(guī)需求。 |
數據加密 | |
管理IP白名單 |
可設置指定IP指定用戶訪問項目空間。 |
管理IP白名單 | |
數據動態(tài)脫敏 |
當項目用戶具備查詢MaxCompute項目中的某些敏感數據的權限,但又不希望用戶能看到完整的敏感數據信息時,可以對查詢結果進行數據動態(tài)脫敏。 |
數據動態(tài)脫敏 | |
審計日志 |
MaxCompute完整地記錄用戶的各項操作行為,并通過阿里云ActionTrail服務將用戶行為日志實時推送給ActionTrail,用戶可以在ActionTrail中查看和檢索用戶行為日志,同時通過ActionTrail將日志投遞到日志服務項目或指定的OSS Bucket中。 |
審計日志 | |
權限管理 |
權限管理 |
為確保MaxCompute項目數據的安全性,項目所有者或者具備授權權限的用戶需要對項目內成員的權限進行合理管控,確保權限不會過大也不會過小。 |
權限管理 |
治理 |
Information Schema |
MaxCompute的Information Schema是通過在每個阿里云賬號下創(chuàng)建名為SYSTEM_CATALOG的項目,并內置INFORMATION_SCHEMA,通過訪問該內置Schema提供的只讀視圖可以查詢當前用戶所有項目的元數據信息以及使用歷史信息,從而進行相關存儲和作業(yè)優(yōu)化以及資源容量規(guī)劃等治理,從而滿足并支持用戶側數據治理、合規(guī)要求。 |
租戶級別Information Schema |
管理&運維
MaxCompute提供用戶可視化運維、管理功能,方便用戶進行日常產品管理運維工作。
功能集 |
功能 |
功能描述 |
參考文檔 |
管理 |
項目管理 |
項目(Project)是MaxCompute的基本組織單元,是進行多用戶隔離和訪問控制的主要邊界。 |
項目管理 |
配額(Quota)管理 |
提供計算資源消耗查看、調整、增刪改查等涉及日常資源管理運維相關功能。 |
配額(Quota)管理 | |
成本分析 |
MaxCompute提供按量付費的成本分析功能,從費用出發(fā)下鉆到用量明細,為關注費用的管理人員提供更便捷的費用分析能力,方便后續(xù)進行成本優(yōu)化。 |
成本分析 | |
租戶管理 |
用戶可以配置租戶級別的能力,包括,租戶控制開關,角色,用戶,網絡以及鏡像等。 |
租戶管理 | |
運維 |
資源觀測 |
查看數據傳輸服務中共享資源組與包年包月獨享資源組的資源使用情況,可以根據項目和需要觀測的時間區(qū)間去觀測各個指標的使用情況。 |
資源觀測 |
作業(yè)運維 |
MaxCompute提供作業(yè)運維管理功能,數據開發(fā)人員和管理員可通過MaxCompute控制臺的作業(yè)運維功能查看歷史作業(yè)和正在運行的作業(yè),方便了解作業(yè)運行詳情:包括參數配置、角色授權、Package、Tables、Resources、UDF管理等功能。 |
作業(yè)運維 |
數據聯(lián)邦
MaxCompute支持湖倉一體能力,將數據湖的靈活性、生態(tài)豐富能力與數據倉庫的企業(yè)級部署能力進行融合,助力構建數據湖和數據倉庫相融合的數據管理平臺。
功能集 |
功能 |
功能描述 |
參考文檔 |
數據聯(lián)邦 |
基于Delta Lake或Hudi存儲機制實現(xiàn)湖倉一體 |
MaxCompute基于阿里云DLF、RDS、OSS產品提供了支持Delta或Hudi存儲機制的湖倉一體架構。 |
基于Delta Lake或Hudi存儲機制實現(xiàn)湖倉一體 |
Spark訪問湖倉一體外部數據源 |
訪問基于Hadoop外部數據源的外部項目。 |
Spark訪問湖倉一體外部數據源 | |
基于External Volume處理非結構化數據 |
通過創(chuàng)建External Volume掛載OSS的路徑,利用MaxCompute權限管理系統(tǒng)對用戶訪問External Volume做細粒度的權限控制,同時利用 MaxCompute引擎處理External Volume內部的文件數據。 |
基于External Volume處理非結構化數據 |