若您要使用DataWorks進行MaxCompute任務的開發、管理,需先將您的MaxCompute項目創建為DataWorks的MaxCompute數據源。創建完成后,可在DataWorks的各功能模塊使用該數據源連接MaxCompute項目,進行相應的數據同步、數據開發、數據分析等操作。
前提條件
已購買MaxCompute,詳情請參見開通MaxCompute。
說明建議購買MaxCompute的地域與創建MaxCompute數據源的DataWorks工作空間地域一致。若地域不一致,則只能創建為跨地域的數據源,此類數據源無法在DataWorks的數據開發(DataStudio)模塊綁定,即無法用于數據開發或周期性調度任務,僅可進行數據同步任務。
已購買所需DataWorks資源組并完成資源組配置。
MaxCompute數據源創建完成后,可用于進行數據同步、計算任務開發與調度、生成API提供數據服務等應用場景,各場景需分別使用DataWorks的數據集成資源組、調度資源組、數據服務資源組。
您需根據應用場景提前準備對應的資源組并完成配置,在創建MaxCompute數據源時確保與對應資源組間網絡連通。各資源組的介紹與配置引導,請參見DataWorks資源組概述。
已創建或加入目標工作空間。
您需在目標工作空間中,將MaxCompute項目創建為該工作空間的數據源,用于后續在該工作空間進行開發操作。同時,需將購買的DataWorks資源組綁定至該工作空間,確保數據源與資源組網絡連通。創建工作空間,詳情請參見創建并管理工作空間。
說明同一個MaxCompute項目可在多個DataWorks工作空間中被創建為數據源。
使用限制
僅當MaxCompute項目和DataWorks工作空間屬于同地域、同一阿里云賬號時,基于該項目創建的數據源才可在DataWorks的數據開發(DataStudio)模塊綁定,即此類數據源才可用于數據開發或周期性調度任務。
支持跨賬號創建數據源,即支持將其他阿里云賬號下的MaxCompute項目創建為數據源,但數據源創建完成后僅支持通過RAM角色訪問對應項目,并且該類數據源不能用于數據開發或周期性調度任務。詳情請參見場景:跨賬號創建數據源。
僅運維和空間管理員角色可創建數據源。授權用戶擁有該類角色,詳情請參見添加空間成員并管理成員角色權限。
說明除上述空間角色權限外,創建MaxCompute數據源時還會存在其他MaxCompute側權限控制,您需根據界面提示進行授權。詳情請參見下文權限說明章節。
權限說明
使用RAM用戶或角色創建數據源:創建MaxCompute數據源,需擁有MaxCompute的odps:ListProjects權限,以及目標MaxCompute項目的Super_Administrator權限。
設置生產數據源的默認訪問身份為RAM用戶或角色:
如需將默認訪問身份設置為其他阿里云賬號或角色(即非當前登錄賬號的其他身份),需擁有MaxCompute項目的admin或super_administrator權限,且數據源創建完成后,該賬號或角色將會被MaxCompute生產項目添加為Role_Project_Scheduler角色。配置默認訪問身份,詳情請參見下文的創建數據源章節。
當前工作空間下的生產數據,均歸屬于創建數據源時所指定的生產環境默認訪問身份。其他賬號如需操作及訪問生產表,需在安全中心申請相關權限。相關介紹及操作,請參見MaxCompute數據訪問權限控制、審批中心概述。
說明簡單模式工作空間無法做到細粒度權限控制,以下內容為標準模式工作空間下的影響說明。
數據源創建入口
進入數據源頁面。
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的 ,在下拉框中選擇對應工作空間后單擊進入管理中心。
進入工作空間管理中心頁面后,單擊左側導航欄的
,進入數據源頁面。
單擊新增數據源,選擇MaxCompute,根據界面指引創建數據源。
您也可進入數據集成界面創建,但該頁面僅支持創建生產數據源,且創建完成后需在
進行管理。數據集成頁面支持創建的數據源類型,具體請以實際界面為準。
創建MaxCompute數據源
若您已有MaxCompute項目,則可將已有MaxCompute項目添加為當前工作空間的數據源,若您未有MaxCompute項目,則需前往MaxCompute控制臺創建項目,詳情可參見:創建MaxCompute項目。
標準模式工作空間,需分別創建開發環境數據源和生產環境數據源。工作空間模式,詳情請參見必讀:簡單模式和標準模式的區別。
通過該方式新建數據源,需擁有MaxCompute的odps:ListProjects權限,以及目標MaxCompute項目的Super_Administrator權限。
創建數據源配置如下。
配置基礎信息。
參數
說明
數據源名稱
定義數據源在DataWorks的名稱,名稱必須唯一。
認證方式
新建的數據源僅支持通過阿里云賬號及阿里云RAM角色進行認證。
說明歷史存量使用AccessID及AccessKey創建的數據源,建議后續修改時通過阿里云賬號及阿里云RAM角色身份進行認證。
所屬云賬號
定義添加哪個賬號下的MaxCompute項目作為當前工作空間的數據源。
當前阿里云主賬號:添加當前阿里云主賬號下的MaxCompute項目作為當前工作空間的數據源。
其他阿里云主賬號:添加其他阿里云主賬號下的MaxCompute項目作為當前工作空間的數據源。
請根據選擇的賬號類型,參照下文配置其他配置項。
地域
MaxCompute項目所在地域。
說明若選擇的MaxCompute項目與當前工作空間不在同一地域,則將MaxCompute項目添加為數據源后,此類數據源無法在DataWorks的數據開發(DataStudio)模塊綁定,即不支持在數據開發(DataStudio)、運維中心使用,僅用于數據集成模塊進行數據同步。
其他配置(使用當前阿里云主賬號)
當所屬云賬號選擇當前阿里云主賬號時,您需配置如下參數:
MaxCompute項目名稱:選擇需將指定地域下哪一個MaxCompute項目添加為當前工作空間的數據源。
說明若無法選擇目標MaxCompute項目,則請授予當前登錄賬號該項目的Super_Administrator權限。授權詳情請參見權限說明。
默認訪問身份:定義在當前工作空間下,用什么身份訪問該數據源。
開發環境:當前僅支持使用執行者身份訪問。
生產環境:支持使用阿里云主賬號、阿里云RAM用戶(即子賬號)、阿里云RAM角色訪問。
說明僅阿里云主賬號及擁有AdministratorAccess角色權限的用戶或角色可選擇所有身份訪問。
設置生產數據源的默認訪問身份為RAM用戶或角色:
如需將默認訪問身份設置為其他阿里云賬號或角色(即非當前登錄賬號的其他身份),需擁有MaxCompute項目的admin或super_administrator權限,且數據源創建完成后,該賬號或角色將會被MaxCompute生產項目添加為Role_Project_Scheduler角色。
當前工作空間下的生產數據,均歸屬于創建數據源時所指定的生產環境默認訪問身份。其他賬號如需操作及訪問生產表,需在安全中心申請相關權限。相關介紹及操作,請參見MaxCompute數據訪問權限控制、審批中心概述。
其他配置(使用其他阿里云主賬號)
當所屬云賬號選擇其他阿里云主賬號時,您需配置如下參數:
對方阿里云主賬號UID:需添加的MaxCompute項目所屬的云賬號UID。
對方MaxCompute項目:需將對方賬號下哪一個MaxCompute項目作為當前工作空間的MaxCompute數據源。
對方RAM角色:訪問該MaxCompute項目的RAM角色。該角色需滿足如下條件:
對方阿里云主賬號中已創建RAM角色。
對方阿里云主賬號的RAM角色已授權當前賬號DataWorks服務訪問。
所選擇的MaxCompute項目中已添加該角色。
說明跨賬號添加數據源的相關操作,詳情請參見場景:跨賬號創建數據源。
若選擇的MaxCompute項目與DataWorks工作空間不在同一個阿里云主賬號下,則將MaxCompute項目添加為數據源后,此類數據源無法在DataWorks的數據開發(DataStudio)模塊綁定,即不支持在數據開發(DataStudio)、運維中心使用,僅用于數據集成模塊進行數據同步。
Endpoint
指定DataWorks通過該數據源訪問MaxCompute項目的Endpoint地址。包括訪問MaxCompute服務的Endpoint地址,以及上傳、下載本地或云數據源數據的Tunnel服務地址。支持以下兩種配置:
自動適配:DataWorks根據實際情況自動適配,建議選擇該項。
說明若MaxCompute項目與DataWorks服務所在地域不一致,即存在跨地域訪問場景,自動適配情況下,數據集成默認使用公網訪問地址讀取和下載數據。
自定義配置:自定義情況下,您需手動配置MaxCompute Endpoint及Tunnel Endpoint,不同地域,Endpoint不同。詳情請參見Endpoint。
測試資源組連通性。
根據使用場景不同,資源組分為數據集成(用于數據同步)、數據調度(用于任務調度)、數據服務(用于數據服務任務)三種類型。各類資源組的詳細介紹,請參見DataWorks資源組概述。
您需根據數據源后續的用途,在連接配置區域對應資源組類型后,測試所需資源組的連通性。若資源組與數據源無法連通,則相應數據源任務將無法正常執行。
說明數據源創建成功后平臺會進行訪問身份授權,即將訪問身份賬號添加至MaxCompute項目中,并為該身份映射MaxCompute對應的權限。在授權完成前,連通性測試可能會產生連通無權限報錯,該場景下,保存數據源后,您需稍作等待。
后續操作
為保障您的開發過程更加順暢,建議先閱讀DataWorks On MaxCompute使用說明,了解在DataWorks使用MaxCompute的開發流程、相關費用、環境準備、權限控制等內容。
數據源創建完成后,您可根據需要執行如下操作:
DataWorks的數據開發與運維中心模塊,為您提供MaxCompute任務的開發與調度能力,若您需要基于該MaxCompute數據源進行MaxCompute任務開發,或周期性調度MaxCompute相關任務,需先進入數據開發(DataStudio)頁面,將創建的數據源綁定至數據開發(DataStudio)。
說明僅當MaxCompute項目和DataWorks工作空間同地域、同賬號時,基于該項目創建的數據源才可綁定至數據開發(DataStudio)。
DataWorks的數據集成模塊為您提供讀取和寫入數據至MaxCompute的能力,您可將其他數據源的數據同步至當前MaxCompute數據源,或將當前MaxCompute數據源的數據同步至其他數據源。同時,可根據需要選擇離線同步、實時同步、同步解決方案等場景執行相關數據同步操作。
增刪改查數據源:進入數據源管理頁面執行編輯、刪除等管理操作。