創(chuàng)建MaxCompute數(shù)據(jù)源
若您要使用DataWorks進行MaxCompute任務(wù)的開發(fā)、管理,需先將您的MaxCompute項目創(chuàng)建為DataWorks的MaxCompute數(shù)據(jù)源。創(chuàng)建完成后,可在DataWorks的各功能模塊使用該數(shù)據(jù)源連接MaxCompute項目,進行相應(yīng)的數(shù)據(jù)同步、數(shù)據(jù)開發(fā)、數(shù)據(jù)分析等操作。
前提條件
已購買MaxCompute,詳情請參見開通MaxCompute。
說明建議購買MaxCompute的地域與創(chuàng)建MaxCompute數(shù)據(jù)源的DataWorks工作空間地域一致。若地域不一致,則只能創(chuàng)建為跨地域的數(shù)據(jù)源,此類數(shù)據(jù)源無法在DataWorks的數(shù)據(jù)開發(fā)(DataStudio)模塊綁定,即無法用于數(shù)據(jù)開發(fā)或周期性調(diào)度任務(wù),僅可進行數(shù)據(jù)同步任務(wù)。
已購買所需DataWorks資源組并完成資源組配置。
MaxCompute數(shù)據(jù)源創(chuàng)建完成后,可用于進行數(shù)據(jù)同步、計算任務(wù)開發(fā)與調(diào)度、生成API提供數(shù)據(jù)服務(wù)等應(yīng)用場景,各場景需分別使用DataWorks的數(shù)據(jù)集成資源組、調(diào)度資源組、數(shù)據(jù)服務(wù)資源組。
您需根據(jù)應(yīng)用場景提前準(zhǔn)備對應(yīng)的資源組并完成配置,在創(chuàng)建MaxCompute數(shù)據(jù)源時確保與對應(yīng)資源組間網(wǎng)絡(luò)連通。各資源組的介紹與配置引導(dǎo),請參見DataWorks資源組概述。
已創(chuàng)建或加入目標(biāo)工作空間。
您需在目標(biāo)工作空間中,將MaxCompute項目創(chuàng)建為該工作空間的數(shù)據(jù)源,用于后續(xù)在該工作空間進行開發(fā)操作。同時,需將購買的DataWorks資源組綁定至該工作空間,確保數(shù)據(jù)源與資源組網(wǎng)絡(luò)連通。創(chuàng)建工作空間,詳情請參見創(chuàng)建并管理工作空間。
說明同一個MaxCompute項目可在多個DataWorks工作空間中被創(chuàng)建為數(shù)據(jù)源。
使用限制
僅當(dāng)MaxCompute項目和DataWorks工作空間屬于同地域、同一阿里云賬號時,基于該項目創(chuàng)建的數(shù)據(jù)源才可在DataWorks的數(shù)據(jù)開發(fā)(DataStudio)模塊綁定,即此類數(shù)據(jù)源才可用于數(shù)據(jù)開發(fā)或周期性調(diào)度任務(wù)。
支持跨賬號創(chuàng)建數(shù)據(jù)源,即支持將其他阿里云賬號下的MaxCompute項目創(chuàng)建為數(shù)據(jù)源,但數(shù)據(jù)源創(chuàng)建完成后僅支持通過RAM角色訪問對應(yīng)項目,并且該類數(shù)據(jù)源不能用于數(shù)據(jù)開發(fā)或周期性調(diào)度任務(wù)。詳情請參見場景:跨賬號創(chuàng)建數(shù)據(jù)源。
僅運維和空間管理員角色可創(chuàng)建數(shù)據(jù)源。授權(quán)用戶擁有該類角色,詳情請參見添加空間成員并管理成員角色權(quán)限。
說明除上述空間角色權(quán)限外,創(chuàng)建MaxCompute數(shù)據(jù)源時還會存在其他MaxCompute側(cè)權(quán)限控制,您需根據(jù)界面提示進行授權(quán)。詳情請參見下文權(quán)限說明章節(jié)。
權(quán)限說明
使用RAM用戶或角色創(chuàng)建數(shù)據(jù)源:創(chuàng)建MaxCompute數(shù)據(jù)源,需擁有MaxCompute的odps:ListProjects權(quán)限,以及目標(biāo)MaxCompute項目的Super_Administrator權(quán)限。
設(shè)置生產(chǎn)數(shù)據(jù)源的默認(rèn)訪問身份為RAM用戶或角色:
如需將默認(rèn)訪問身份設(shè)置為其他阿里云賬號或角色(即非當(dāng)前登錄賬號的其他身份),需擁有MaxCompute項目的admin或super_administrator權(quán)限,且數(shù)據(jù)源創(chuàng)建完成后,該賬號或角色將會被MaxCompute生產(chǎn)項目添加為Role_Project_Scheduler角色。配置默認(rèn)訪問身份,詳情請參見下文的創(chuàng)建數(shù)據(jù)源章節(jié)。
當(dāng)前工作空間下的生產(chǎn)數(shù)據(jù),均歸屬于創(chuàng)建數(shù)據(jù)源時所指定的生產(chǎn)環(huán)境默認(rèn)訪問身份。其他賬號如需操作及訪問生產(chǎn)表,需在安全中心申請相關(guān)權(quán)限。相關(guān)介紹及操作,請參見MaxCompute數(shù)據(jù)訪問權(quán)限控制、審批中心概述。
說明簡單模式工作空間無法做到細粒度權(quán)限控制,以下內(nèi)容為標(biāo)準(zhǔn)模式工作空間下的影響說明。
數(shù)據(jù)源創(chuàng)建入口
進入數(shù)據(jù)源頁面。
登錄DataWorks控制臺,切換至目標(biāo)地域后,單擊左側(cè)導(dǎo)航欄的 ,在下拉框中選擇對應(yīng)工作空間后單擊進入管理中心。
進入工作空間管理中心頁面后,單擊左側(cè)導(dǎo)航欄的
,進入數(shù)據(jù)源頁面。
單擊新增數(shù)據(jù)源,選擇MaxCompute,根據(jù)界面指引創(chuàng)建數(shù)據(jù)源。
您也可進入數(shù)據(jù)集成界面創(chuàng)建,但該頁面僅支持創(chuàng)建生產(chǎn)數(shù)據(jù)源,且創(chuàng)建完成后需在
進行管理。數(shù)據(jù)集成頁面支持創(chuàng)建的數(shù)據(jù)源類型,具體請以實際界面為準(zhǔn)。
創(chuàng)建MaxCompute數(shù)據(jù)源
若您已有MaxCompute項目,則可將已有MaxCompute項目添加為當(dāng)前工作空間的數(shù)據(jù)源,若您未有MaxCompute項目,則需前往MaxCompute控制臺創(chuàng)建項目,詳情可參見:創(chuàng)建MaxCompute項目。
標(biāo)準(zhǔn)模式工作空間,需分別創(chuàng)建開發(fā)環(huán)境數(shù)據(jù)源和生產(chǎn)環(huán)境數(shù)據(jù)源。工作空間模式,詳情請參見必讀:簡單模式和標(biāo)準(zhǔn)模式的區(qū)別。
通過該方式新建數(shù)據(jù)源,需擁有MaxCompute的odps:ListProjects權(quán)限,以及目標(biāo)MaxCompute項目的Super_Administrator權(quán)限。
創(chuàng)建數(shù)據(jù)源配置如下。
配置基礎(chǔ)信息。
參數(shù)
說明
數(shù)據(jù)源名稱
定義數(shù)據(jù)源在DataWorks的名稱,名稱必須唯一。
認(rèn)證方式
新建的數(shù)據(jù)源僅支持通過阿里云賬號及阿里云RAM角色進行認(rèn)證。
說明歷史存量使用AccessID及AccessKey創(chuàng)建的數(shù)據(jù)源,建議后續(xù)修改時通過阿里云賬號及阿里云RAM角色身份進行認(rèn)證。
所屬云賬號
定義添加哪個賬號下的MaxCompute項目作為當(dāng)前工作空間的數(shù)據(jù)源。
當(dāng)前阿里云主賬號:添加當(dāng)前阿里云主賬號下的MaxCompute項目作為當(dāng)前工作空間的數(shù)據(jù)源。
其他阿里云主賬號:添加其他阿里云主賬號下的MaxCompute項目作為當(dāng)前工作空間的數(shù)據(jù)源。
請根據(jù)選擇的賬號類型,參照下文配置其他配置項。
地域
MaxCompute項目所在地域。
說明若選擇的MaxCompute項目與當(dāng)前工作空間不在同一地域,則將MaxCompute項目添加為數(shù)據(jù)源后,此類數(shù)據(jù)源無法在DataWorks的數(shù)據(jù)開發(fā)(DataStudio)模塊綁定,即不支持在數(shù)據(jù)開發(fā)(DataStudio)、運維中心使用,僅用于數(shù)據(jù)集成模塊進行數(shù)據(jù)同步。
其他配置(使用當(dāng)前阿里云主賬號)
當(dāng)所屬云賬號選擇當(dāng)前阿里云主賬號時,您需配置如下參數(shù):
MaxCompute項目名稱:選擇需將指定地域下哪一個MaxCompute項目添加為當(dāng)前工作空間的數(shù)據(jù)源。
說明若無法選擇目標(biāo)MaxCompute項目,則請授予當(dāng)前登錄賬號該項目的Super_Administrator權(quán)限。授權(quán)詳情請參見權(quán)限說明。
默認(rèn)訪問身份:定義在當(dāng)前工作空間下,用什么身份訪問該數(shù)據(jù)源。
開發(fā)環(huán)境:當(dāng)前僅支持使用執(zhí)行者身份訪問。
生產(chǎn)環(huán)境:支持使用阿里云主賬號、阿里云RAM用戶(即子賬號)、阿里云RAM角色訪問。
說明僅阿里云主賬號及擁有AdministratorAccess角色權(quán)限的用戶或角色可選擇所有身份訪問。
設(shè)置生產(chǎn)數(shù)據(jù)源的默認(rèn)訪問身份為RAM用戶或角色:
如需將默認(rèn)訪問身份設(shè)置為其他阿里云賬號或角色(即非當(dāng)前登錄賬號的其他身份),需擁有MaxCompute項目的admin或super_administrator權(quán)限,且數(shù)據(jù)源創(chuàng)建完成后,該賬號或角色將會被MaxCompute生產(chǎn)項目添加為Role_Project_Scheduler角色。
當(dāng)前工作空間下的生產(chǎn)數(shù)據(jù),均歸屬于創(chuàng)建數(shù)據(jù)源時所指定的生產(chǎn)環(huán)境默認(rèn)訪問身份。其他賬號如需操作及訪問生產(chǎn)表,需在安全中心申請相關(guān)權(quán)限。相關(guān)介紹及操作,請參見MaxCompute數(shù)據(jù)訪問權(quán)限控制、審批中心概述。
其他配置(使用其他阿里云主賬號)
當(dāng)所屬云賬號選擇其他阿里云主賬號時,您需配置如下參數(shù):
對方阿里云主賬號UID:需添加的MaxCompute項目所屬的云賬號UID。
對方MaxCompute項目:需將對方賬號下哪一個MaxCompute項目作為當(dāng)前工作空間的MaxCompute數(shù)據(jù)源。
對方RAM角色:訪問該MaxCompute項目的RAM角色。該角色需滿足如下條件:
對方阿里云主賬號中已創(chuàng)建RAM角色。
對方阿里云主賬號的RAM角色已授權(quán)當(dāng)前賬號DataWorks服務(wù)訪問。
所選擇的MaxCompute項目中已添加該角色。
說明跨賬號添加數(shù)據(jù)源的相關(guān)操作,詳情請參見場景:跨賬號創(chuàng)建數(shù)據(jù)源。
若選擇的MaxCompute項目與DataWorks工作空間不在同一個阿里云主賬號下,則將MaxCompute項目添加為數(shù)據(jù)源后,此類數(shù)據(jù)源無法在DataWorks的數(shù)據(jù)開發(fā)(DataStudio)模塊綁定,即不支持在數(shù)據(jù)開發(fā)(DataStudio)、運維中心使用,僅用于數(shù)據(jù)集成模塊進行數(shù)據(jù)同步。
Endpoint
指定DataWorks通過該數(shù)據(jù)源訪問MaxCompute項目的Endpoint地址。包括訪問MaxCompute服務(wù)的Endpoint地址,以及上傳、下載本地或云數(shù)據(jù)源數(shù)據(jù)的Tunnel服務(wù)地址。支持以下兩種配置:
自動適配:DataWorks根據(jù)實際情況自動適配,建議選擇該項。
說明若MaxCompute項目與DataWorks服務(wù)所在地域不一致,即存在跨地域訪問場景,自動適配情況下,數(shù)據(jù)集成默認(rèn)使用公網(wǎng)訪問地址讀取和下載數(shù)據(jù)。
自定義配置:自定義情況下,您需手動配置MaxCompute Endpoint及Tunnel Endpoint,不同地域,Endpoint不同。詳情請參見Endpoint。
測試資源組連通性。
根據(jù)使用場景不同,資源組分為數(shù)據(jù)集成(用于數(shù)據(jù)同步)、數(shù)據(jù)調(diào)度(用于任務(wù)調(diào)度)、數(shù)據(jù)服務(wù)(用于數(shù)據(jù)服務(wù)任務(wù))三種類型。各類資源組的詳細介紹,請參見DataWorks資源組概述。
您需根據(jù)數(shù)據(jù)源后續(xù)的用途,在連接配置區(qū)域?qū)?yīng)資源組類型后,測試所需資源組的連通性。若資源組與數(shù)據(jù)源無法連通,則相應(yīng)數(shù)據(jù)源任務(wù)將無法正常執(zhí)行。
說明數(shù)據(jù)源創(chuàng)建成功后平臺會進行訪問身份授權(quán),即將訪問身份賬號添加至MaxCompute項目中,并為該身份映射MaxCompute對應(yīng)的權(quán)限。在授權(quán)完成前,連通性測試可能會產(chǎn)生連通無權(quán)限報錯,該場景下,保存數(shù)據(jù)源后,您需稍作等待。
后續(xù)操作
為保障您的開發(fā)過程更加順暢,建議先閱讀DataWorks On MaxCompute使用說明,了解在DataWorks使用MaxCompute的開發(fā)流程、相關(guān)費用、環(huán)境準(zhǔn)備、權(quán)限控制等內(nèi)容。
數(shù)據(jù)源創(chuàng)建完成后,您可根據(jù)需要執(zhí)行如下操作:
DataWorks的數(shù)據(jù)開發(fā)與運維中心模塊,為您提供MaxCompute任務(wù)的開發(fā)與調(diào)度能力,若您需要基于該MaxCompute數(shù)據(jù)源進行MaxCompute任務(wù)開發(fā),或周期性調(diào)度MaxCompute相關(guān)任務(wù),需先進入數(shù)據(jù)開發(fā)(DataStudio)頁面,將創(chuàng)建的數(shù)據(jù)源綁定至數(shù)據(jù)開發(fā)(DataStudio)。
說明僅當(dāng)MaxCompute項目和DataWorks工作空間同地域、同賬號時,基于該項目創(chuàng)建的數(shù)據(jù)源才可綁定至數(shù)據(jù)開發(fā)(DataStudio)。
DataWorks的數(shù)據(jù)集成模塊為您提供讀取和寫入數(shù)據(jù)至MaxCompute的能力,您可將其他數(shù)據(jù)源的數(shù)據(jù)同步至當(dāng)前MaxCompute數(shù)據(jù)源,或?qū)?dāng)前MaxCompute數(shù)據(jù)源的數(shù)據(jù)同步至其他數(shù)據(jù)源。同時,可根據(jù)需要選擇離線同步、實時同步、同步解決方案等場景執(zhí)行相關(guān)數(shù)據(jù)同步操作。
增刪改查數(shù)據(jù)源:進入數(shù)據(jù)源管理頁面執(zhí)行編輯、刪除等管理操作。