若您想在DataWorks操作您的數據庫或數據倉庫(例如,MaxCompute項目數據),需先在DataWorks的數據源管理頁面,將數據庫或數據倉庫創建為DataWorks的數據源,并將該數據源綁定至DataWorks相應的功能模塊使用。例如,同步MaxCompute數據前,需先創建MaxCompute數據源,創建完成后可在數據集成模塊選擇該數據源,控制同步任務讀取或寫入的數據庫或數據倉庫。
背景信息
為了給您帶來更為統一的產品使用體驗,DataWorks于2023年10月20日開始逐步將MaxCompute、Hologres、AnalyticDB for PostgreSQL、AnalyticDB for MySQL、ClickHouse計算引擎合并至數據源管理;將E-MapReduce(簡稱EMR)、CDH/CDP引擎合并至開源集群管理。合并后,原計算引擎的相關操作(例如,創建、編輯)將通過數據源/開源集群界面執行。詳情請參見DataWorks新版數據源公告。
權限控制
僅擁有運維或空間管理員角色的空間成員,以及擁有AliyunDataWorksFullAccess、AdministratorAccess權限策略的RAM角色可創建數據源,授權詳情請參見空間級模塊權限管控,為RAM用戶授權。
除上述權限外,部分數據源創建時還會存在其他權限控制,請根據界面提示進行授權。
數據源環境隔離
標準模式的工作空間支持數據源隔離功能。您可以分別創建開發環境和生產環境的數據源,使測試與生產調度操作的數據源隔離,以保護您的生產數據安全。詳情請參見附錄:數據源環境介紹。
開發環境的數據源:可在數據同步節點中選擇,并在開發環境運行,但無法提交到生產環境或在生產環境運行。
生產環境的數據源:無法在數據同步節點中選擇,且只允許在生產環境使用。
支持的數據源類型
DataWorks目前支持的數據源類型請參見數據源列表。其中,主要用于調度任務使用的數據源為MaxCompute、Hologres、AnalyticDB for PostgreSQL、AnalyticDB for MySQL3.0、ClickHouse、EMR、CDH/CDP。
對于CDH/CDP、EMR集群:
如需使用集群的某個組件(例如,Hive),則可在數據源管理頁面單獨將該組件創建為相應數據源。
如需在DataWorks上調度集群任務,則要將整個集群注冊到DataWorks中。詳情請參見注冊EMR集群至DataWorks、注冊CDH/CDP集群。
DataWorks不同功能模塊可使用的數據源存在差異,具體請以實際界面為準。
創建數據源
進入管理中心頁面。
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的 ,在下拉框中選擇對應工作空間后單擊進入管理中心。
單擊左側導航欄的
,進入數據源頁面。在數據源頁面,您可根據需要選擇新增數據源或批量新增數據源:
說明DataWorks支持創建的數據源請參見支持的數據源類型。
創建單個數據源
單擊新增數據源,選擇需要創建的數據源類型并配置數據源信息。不同數據源的配置存在差異,詳細的配置參數解釋可在配置界面查看對應參數的文案提示。
(可選)測試資源組連通性。
在連接配置區域,找到工作空間綁定的資源組,單擊連通狀態列的測試連通性。
說明不同資源組的屬性及特點不同,詳情請參見DataWorks資源組概述。
如果顯示可連通,則單擊完成。
如果顯示無法連通,表示資源組與數據源無法連通,后續相應數據源任務將無法正常執行。
批量創建數據源
單擊批量新增數據源,按如下步驟選擇需要創建的數據源類型并配置數據源信息。目前僅支持批量創建MySQL、PolarDB、SQLServer和Oracle數據源。
選擇相應數據源并下載該數據源的配置信息模板。
創建數據源的方式不同(連接串模式或實例模式),則模板配置信息不同,具體請以實際界面為準。
根據模板格式填寫數據源信息。
填寫完后上傳模板文件并啟動創建數據源。
創建數據源時,您可根據界面文本框的提示,查看數據源的創建進度及詳情。若創建失敗,請基于相應報錯解決處理。
DataWorks支持通過連接串模式或實例模式創建數據源,不同創建方式的配置信息存在差異,請根據需要選擇。
當使用連接串模式配置數據源時,DataWorks會對數據源的JDBC URL進行解析。若JDBC URL中包含DataWorks暫不支持的參數,DataWorks會將該參數移除。若您希望在JDBC URL中繼續使用DataWorks不支持的參數,則請提交工單聯系技術支持人員咨詢。
同一個數據源名稱可分別配置開發環境數據源、生產環境數據源,且不同環境的數據源配置是相互獨立的。
管理數據源
在數據源管理頁面,您可根據數據源類型、數據源名稱篩選需要查看的數據源。同時,支持您對目標數據源執行如下管理操作:
編輯:可根據需要修改數據源的配置信息。數據源的名稱及適用環境無法更改。
刪除:可根據需要刪除無需使用的數據源,刪除數據源對DataWorks不同模塊功能的影響如下。
說明若數據源已授權跨工作空間的用戶使用,則刪除數據源后,跨工作空間使用該數據源的任務會執行失敗。
如果刪除時提示
該數據源已經被綁定為計算引擎xxxx,請先解綁后再試!
,則表示該數據源已被數據開發模塊綁定為計算資源,需先解綁后再刪除。您可以在管理中心左側導航欄單擊計算資源或計算引擎,找到待刪除的數據源,然后單擊解綁。
對數據集成模塊的影響。
刪除不同環境數據源
操作影響
刪除數據源前的處理方案
開發環境和生產環境
需確認是否存在生產環境關聯的同步任務,操作不可逆。若此數據源配置的同步任務已在生產環境使用,刪除后:
生產環境的任務將無法正常運行。請刪除同步任務后再刪除此數據源。
在開發環境配置同步任務時此數據源不可見。
通過批量操作修改任務數據源,并重新提交、發布任務。
僅開發環境
需確認是否存在生產環境關聯的同步任務,操作不可逆。若此數據源配置的同步任務已在生產環境使用,刪除后:
生產環境的任務可以正常運行,但任務編輯時將不能獲取到元數據信息。
在開發環境配置同步任務時此數據源不可見。
僅生產環境
需確認是否存在生產環境關聯的同步任務。若此數據源配置的同步任務已在生產環境使用,刪除后:
生產環境的任務無法正常運行。請刪除同步任務后再刪除此數據源。
在開發環境使用此數據源配置的同步任務時,該任務將不能提交生產發布。
對其他模塊的影響。
功能模塊
操作風險等級
操作影響
相關任務
刪除數據源前的處理方案
運維中心
高
導致相關任務運行失敗。
通過批量操作修改任務歸屬數據源,并重新提交、發布任務。
數據服務API
高
導致相關任務調用失敗。
更換數據服務API數據源。
數據分析
中
導致相關任務查詢失敗。
通過數據分析執行的查詢任務。
更換SQL查詢數據源。
數據質量
中
導致相關任務檢查異常。
已配置數據質量監控規則的任務,詳情請參見查看質量監控執行詳情。
前往運維中心,將任務與DQC規則取消關聯。詳情請參見管理周期任務。
克隆:可通過克隆功能,快速生成一個與當前數據源配置信息相同的新數據源。
說明新數據源的名稱需要重新定義,不能與當前數據源名稱相同。
權限管理:您可通過數據源的權限管理功能,授權其他工作空間下的某用戶使用當前數據源。授權后,該用戶擁有數據源的查看及使用權限,但無法編輯數據源。詳情請參見管理數據源權限。
說明若授權某個工作空間擁有數據源權限,則工作空間中的所有成員均擁有該數據源的查看及使用權限。
附錄:數據源環境介紹
標準模式工作空間下,同一個名稱的數據源存在開發環境和生產環境兩套配置,這兩套配置可對應底層兩個數據庫/數據倉庫,針對不同環境您可設置不同的數據源信息,使測試與生產調度操作的數據源隔離,以保護生產數據的安全。例如,執行離線同步任務時,可由運行環境控制任務所訪問的數據庫地址(配置生產、開發數據源對應不同數據庫),使開發環境和生產環境的數據隔離。
簡單模式工作空間僅擁有一個環境,無法做到開發、生產隔離。關于工作空間模式的介紹,詳情請參見必讀:簡單模式和標準模式的區別。
若簡單模式升級為標準模式,會將原有的一個數據源拆分為生產環境和開發環境隔離的兩個數據源。詳情請參見場景:工作空間模式升級(簡單模式升級標準模式)。
標準模式工作空間中,任務在不同環境執行時所訪問的數據源如下:
在數據開發(DataStudio)模塊與開發環境運維中心執行,默認訪問開發環境的數據源。
在生產環境運維中心執行,默認訪問生產環境的數據源。
配置數據源時,請確認開發環境、生產環境的數據源分別對應的數據庫/數據倉庫是否符合業務現狀。當開發環境和生產環境數據源的配置不同時(例如,數據庫賬號密碼不同),可能出現如下問題:
任務在數據開發(DataStudio)執行成功,在生產調度時執行失敗。
任務在數據開發(DataStudio)與在生產調度執行時產生的數據量不一致。
上述問題您可對比開發環境與生產環境的運行日志排查解決。
若數據源開發環境與生產環境配置不同,請確保任務運行時使用的資源組可分別與開發環境、生產環境的數據源連通。