在開始使用MaxCompute產品前,您可以提前查閱MaxCompute所涉及的術語及其含義,為了解產品及快速上手提供幫助。本文為您介紹MaxCompute涉及的術語及其概念。

A

  • AccessKey

    簡稱AK,包括AccessKey ID和AccessKey Secret,是訪問阿里云API的密鑰。在阿里云官網注冊云賬號后,可以在AccessKey管理頁面生成該信息,用于標識用戶,為訪問MaxCompute、其他阿里云產品或連接第三方工具做簽名驗證。請妥善保管AccessKey Secret,必須保密,如果存在泄露風險,請及時禁用或更新AccessKey。

  • 安全

    MaxCompute提供多租戶數據安全體系,主要包括用戶認證、項目的用戶與授權管理、跨項目的資源分享以及項目的數據保護。更多MaxCompute安全操作信息,請參見權限概述

C

  • Console

    即MaxCompute客戶端,是運行在Window或Linux下的工具,您可以在MaxCompute客戶端通過運行命令的方式完成項目管理、DDL、DML等操作。MaxCompute客戶端的操作指導,請參見使用客戶端(odpscmd)連接

D

  • Data Type

    MaxCompute表中列的數據類型。MaxCompute支持的數據類型版本及各版本的數據類型列表,請參見數據類型版本說明

  • DDL

    Data Definition Language,數據定義語言。例如創建表、創建視圖等操作。更多DDL語法信息,請參見DDL語句

  • DML

    Data Manipulation Language,數據操作語言。例如INSERT、UPDATE、DELETE操作。更多DML語法信息,請參見DML操作

F

  • Function(函數)

    MaxCompute提供函數功能,包括內建函數和UDF。更多函數信息,請參見函數

  • fuxi(伏羲)

    伏羲是飛天平臺內核中負責資源管理和任務調度的模塊,同時也為應用開發提供了一套編程基礎框架。MaxCompute的底層任務調度模塊為fuxi的調度模塊。

I

  • Instance(實例)

    即實際運行作業的一個具體實例,類同Hadoop中Job的概念。詳情請參見任務實例

M

  • MapReduce

    MapReduce是處理數據的一種編程模型,通常用于大規模數據集的并行運算。您可以使用MapReduce提供的接口(Java API)編寫MapReduce程序,來處理MaxCompute中的數據。編程思想是將數據的處理方式分為Map(映射)和Reduce(規約)。

    在正式執行Map前,需要將輸入的數據進行分片。所謂分片,就是將輸入數據切分為大小相等的數據塊,每一塊作為單個Map Worker的輸入被處理,以便于多個Map Worker同時工作。每個Map Worker在讀入各自的數據后,進行計算處理,最終通過Reduce函數整合中間結果,從而得到最終計算結果。詳情請參見MapReduce

  • MapReduce Backups

    MapReduce Backups是MapReduce的一種加速調優方式。MaxCompute會查看您的任務,如果存在一些任務的工作量特別大,便為其開啟備份任務,兩個任務執行一樣的數據,結果用最先執行結束的任務,因此存在Backups。但是如果任務量非常大,Backups也無法起作用,因為原本的任務和Backups都沒有執行完成。

N

  • Networklink(網絡連接)

    當您使用外部表、UDF或湖倉一體功能時,MaxCompute默認未建立與外網或VPC網絡間的網絡連接,您需要開通網絡連接以訪問外網或VPC中的目標服務(例如HBase、RDS、Hadoop等)。更多開通網絡連接信息,請參見網絡開通流程

P

  • Partition(分區)

    分區Partition是指一張表下,根據分區字段(一個或多個字段的組合)對數據存儲進行劃分。如果表沒有分區,數據是直接放在表所在的目錄下。如果表有分區,每個分區對應表下的一個目錄,數據是分別存儲在不同的分區目錄下。更多分區信息,請參見分區

  • Project(項目)

    項目是MaxCompute的基本組織單元,類似于傳統數據庫的Database或Schema的概念,是進行多用戶隔離和訪問控制的主要邊界。更多項目信息,請參見項目

Q

  • Quota(配額)

    配額是MaxCompute的計算資源池,提供作業運行所需計算資源。更多配額信息,請參見配額

R

  • Role(角色)

    角色是MaxCompute安全功能中的概念,可以理解為擁有相同權限的用戶的集合。多個用戶可以同時存在于一個角色下,一個用戶也可以隸屬于多個角色。給角色授權后,該角色下的所有用戶擁有相同的權限。更多角色管理信息,請參見角色規劃

  • Resource(資源)

    資源是MaxCompute中特有的概念。當您使用MaxCompute的自定義函數(UDF)或MapReduce功能時,需要依賴資源來完成。更多資源信息,請參見資源

S

  • SDK

    Software Development Kit,軟件開發工具包。一般都是一些被軟件工程師用于為特定的軟件包、軟件實例、軟件框架、硬件平臺、操作系統、文檔包等建立應用軟件的開發工具的集合。MaxCompute支持Java SDKPython SDK

  • 授權

    項目管理員或者項目Owner可以授予其他角色對MaxCompute中的對象(例如表、任務、資源等)進行某種操作的權限,包括讀、寫、查看等。更多授權信息,請參見用戶規劃與管理

  • 沙箱(Sandboxie)

    沙箱是一種按照安全策略限制程序行為的執行環境。沙箱機制是一種安全機制,將Java代碼限定在特定的運行范圍中,并且嚴格限制代碼對本地系統資源訪問,通過這樣的措施來保證對代碼的有效隔離,防止對本地系統造成破壞。MaxCompute MapReduce及UDF程序在分布式環境中運行時受到Java沙箱的限制。

T

  • Table(表)

    表是MaxCompute的數據存儲單元。更多表信息,請參見

  • Tunnel

    MaxCompute的數據通道,提供高并發的離線數據上傳下載服務。您可以使用Tunnel服務向MaxCompute批量上傳數據或者向本地進行批量數據下載。相關命令請參見Tunnel命令批量數據通道SDK

U

  • UDF

    User Defined Function,用戶自定義函數。

    廣義的UDF代表了自定義標量函數、自定義聚合函數及自定義表值函數三種類型。MaxCompute支持通過Java、Python編程接口開發自定義函數,詳情請參見MaxCompute UDF

    狹義的UDF指用戶自定義標量函數(User Defined Scalar Function),它的輸入與輸出是一對一的關系,即讀入一行數據,寫出一條輸出值。

  • UDAF

    User Defined Aggregation Function,自定義聚合函數。它的輸入與輸出是多對一的關系, 即將多條輸入記錄聚合成一條輸出值。可以與SQL中的GROUP BY語句聯用。詳情請參見UDAF

  • UDTF

    User Defined Table Valued Function,自定義表值函數。它是唯一能返回多個字段的自定義函數。詳情請參見UDTF

  • User(用戶)

    用戶是MaxCompute安全功能中的概念,MaxCompute支持您通過阿里云賬號、RAM用戶或RAM角色訪問MaxCompute。非MaxCompute項目所有者(Project Owner)的用戶必須被加入MaxCompute項目中,且被授予相應的權限,才能操作MaxCompute項目中的數據、作業、資源及函數。更多用戶管理信息,請參見用戶規劃與管理

V

  • View(視圖)

    視圖是在表之上建立的虛擬表,它的結構和內容都來自表。一個視圖可以對應一個表或多個表。如果您想保留查詢結果,但不想創建表占用存儲,可以通過視圖實現。更多視圖信息,請參見視圖操作