DataWorks數據集成支持復雜網絡環境下的數據同步,您可在數據開發(DataStudio)界面直接創建離線同步節點,用于離線(批量)數據周期性同步;實時同步任務運維,用于單表或整庫增量數據實時同步。本文為您介紹數據同步的相關內容。

背景信息

除數據開發(DataStudio)的數據同步節點外,數據集成模塊還支持多種類型同步方案,例如,全增量數據實時同步,整庫離線同步等。數據集成模塊與同步解決方案的更多介紹,詳情請參見支持的數據源及同步方案

使用限制

您需要擁有開發角色權限,才可以在數據開發(DataStudio)界面創建同步任務。授權詳情,請參見添加空間成員并管理成員角色權限

離線同步任務

  • 場景介紹

    離線數據同步支持源端單表同步至目標端單表源端分庫分表同步至目標端單表兩類同步場景。同時,結合DataWorks調度參數,可實現增量數據和全量數據周期性寫入目標表的對應分區;再配合運維中心的補數據功能,可實現基于一套完整的任務配置,批量將歷史數據同步至目標數據庫或數據倉庫指定表或指定分區。

  • 數據源支持情況

    數據集成目前支持40種以上的數據源類型(包括關系型數據庫、非結構化存儲、大數據存儲、消息隊列等),通過定義來源與去向數據源,并使用數據集成提供的數據抽取插件(Reader)、數據寫入插件(Writer),實現任意結構化、半結構化數據源之間的數據傳輸。

  • 功能介紹
    功能描述相關文檔
    數據集成離線同步,通過讀取插件與寫入插件實現數據的讀取與寫入,并且支持在DataWorks新建數據源,通過數據源名稱決定同步數據的來源與去向。
    在DataWorks新建數據源后,可通過向導模式進行數據同步。通過向導模式配置離線同步任務
    以下場景需使用腳本模式配置同步任務:
    • 無法通過DataWorks數據集成新建的數據源。
    • 數據源本身不支持使用向導模式配置任務。
    • 部分插件的參數僅支持使用腳本模式配置任務。
    通過腳本模式配置離線同步任務

實時同步任務

實時同步支持將多種數據源進行星型鏈路組合,您可將多種輸入及輸出數據源搭配,組成多種同步鏈路進行數據同步。數據集成通過配置輸入輸出,可實現單表數據同步至目標單表,以及整庫數據同步,詳情請參見實時同步支持的數據源實時同步能力說明

同步任務調度配置

節點依賴關系

  • 離線同步任務
    • 離線同步任務的上游任務:由于同步任務可依賴平臺側血緣,因此,您可根據工作空間業務復雜性,選擇掛載依賴至工作空間根節點虛擬節點,即由工作空間根節點調度當前節點執行,還是由虛擬節點直接調度當前節點執行。
    • 離線同步任務的下游任務:為保障下游SQL任務對表數據進行加工時,可正常通過自動解析掛載該同步任務節點依賴,建議將同步任務產出的表添加為同步節點的輸出,格式為projectname.tablename
  • 實時同步任務的下游任務
    由于DataWorks僅支持為周期調度節點產出的表設置依賴,因此,當下游任務需對實時同步產出的表數據進行加工(即下游任務的上游依賴為實時同步任務),無法基于血緣關系設置依賴。您可根據工作空間業務復雜性,選擇掛載依賴至工作空間根節點虛擬節點,即由工作空間根節點調度當前節點執行,還是由虛擬節點直接調度當前節點執行。
    說明 為保障實時同步任務數據順利產出,您可針對實時同步任務設置監控報警

節點調度參數配置

離線同步任務自帶${bizdate}格式的變量名,該變量自動被授予系統內置參數$bizdate