DataWorks數據集成支持復雜網絡環境下的數據同步,您可在數據開發(DataStudio)界面直接創建離線同步節點,用于離線(批量)數據周期性同步;實時同步任務運維,用于單表或整庫增量數據實時同步。本文為您介紹數據同步的相關內容。
背景信息
除數據開發(DataStudio)的數據同步節點外,數據集成模塊還支持多種類型同步方案,例如,全增量數據實時同步,整庫離線同步等。數據集成模塊與同步解決方案的更多介紹,詳情請參見支持的數據源及同步方案。
使用限制
您需要擁有開發角色權限,才可以在數據開發(DataStudio)界面創建同步任務。授權詳情,請參見添加空間成員并管理成員角色權限。
離線同步任務
- 場景介紹
離線數據同步支持源端單表同步至目標端單表、源端分庫分表同步至目標端單表兩類同步場景。同時,結合DataWorks調度參數,可實現增量數據和全量數據周期性寫入目標表的對應分區;再配合運維中心的補數據功能,可實現基于一套完整的任務配置,批量將歷史數據同步至目標數據庫或數據倉庫指定表或指定分區。
- 數據源支持情況
數據集成目前支持40種以上的數據源類型(包括關系型數據庫、非結構化存儲、大數據存儲、消息隊列等),通過定義來源與去向數據源,并使用數據集成提供的數據抽取插件(Reader)、數據寫入插件(Writer),實現任意結構化、半結構化數據源之間的數據傳輸。
- 功能介紹
功能描述 相關文檔 數據集成離線同步,通過讀取插件與寫入插件實現數據的讀取與寫入,并且支持在DataWorks新建數據源,通過數據源名稱決定同步數據的來源與去向。 在DataWorks新建數據源后,可通過向導模式進行數據同步。 通過向導模式配置離線同步任務 以下場景需使用腳本模式配置同步任務: - 無法通過DataWorks數據集成新建的數據源。
- 數據源本身不支持使用向導模式配置任務。
- 部分插件的參數僅支持使用腳本模式配置任務。
通過腳本模式配置離線同步任務
實時同步任務
實時同步支持將多種數據源進行星型鏈路組合,您可將多種輸入及輸出數據源搭配,組成多種同步鏈路進行數據同步。數據集成通過配置輸入輸出,可實現單表數據同步至目標單表,以及整庫數據同步,詳情請參見實時同步支持的數據源、實時同步能力說明。
同步任務調度配置
節點依賴關系
- 離線同步任務
- 離線同步任務的上游任務:由于同步任務可依賴平臺側血緣,因此,您可根據工作空間業務復雜性,選擇掛載依賴至工作空間根節點或虛擬節點,即由工作空間根節點調度當前節點執行,還是由虛擬節點直接調度當前節點執行。
- 離線同步任務的下游任務:為保障下游SQL任務對表數據進行加工時,可正常通過自動解析掛載該同步任務節點依賴,建議將同步任務產出的表添加為同步節點的輸出,格式為
projectname.tablename
。
- 實時同步任務的下游任務由于DataWorks僅支持為周期調度節點產出的表設置依賴,因此,當下游任務需對實時同步產出的表數據進行加工(即下游任務的上游依賴為實時同步任務),無法基于血緣關系設置依賴。您可根據工作空間業務復雜性,選擇掛載依賴至工作空間根節點或虛擬節點,即由工作空間根節點調度當前節點執行,還是由虛擬節點直接調度當前節點執行。說明 為保障實時同步任務數據順利產出,您可針對實時同步任務設置監控報警。
節點調度參數配置
離線同步任務自帶
${bizdate}
格式的變量名,該變量自動被授予系統內置參數$bizdate
。- 調度參數在數據集成的使用原理,詳情請參見數據集成使用調度參數的相關說明。
- 調度參數在數據集成的應用場景,詳情請參見場景:調度參數在數據集成的典型應用場景。