DataWorks為您提供多種數據源之間進行不同數據同步場景的全增量同步任務,包括實時數據同步、離線全量同步、離線增量同步等同步場景,助力企業數據更高效、更便捷的一鍵上云。
背景信息
實際業務場景下,數據同步通常不能通過一個或多個簡單離線同步或者實時同步任務完成,而是由多個離線同步、實時同步和數據處理等任務組合完成,這就會導致數據同步場景下的配置復雜度非常高。
為了解決上述問題,DataWorks提出了面向業務場景的同步任務配置化方案,支持不同數據源的一鍵同步功能,例如,“一鍵實時同步至Elasticsearch”、“一鍵實時同步至Hologres”和“一鍵實時同步至MaxCompute”功能等,通過此類功能,您只需要進行簡單的配置,就可以完成一個復雜業務場景。
以業務數據庫數據同步到MaxCompute數據倉庫為例,當有大量的數據存儲在數據庫系統里,需要將數據庫中的全量及增量數據同步到MaxCompute進行數倉分析時,數據集成傳統方式是通過全量同步或者依賴數據庫表中的modify_time等字段進行增量同步。但實際生產場景下,數據庫表中不一定存在modify_time等字段,因此不能使用傳統的基于JDBC抽取的方式進行增量同步。而“一鍵實時同步至MaxCompute”功能實現了數據庫全增量實時同步到MaxCompute以及在MaxCompute上進行自動的全增量合并,可以使整個同步場景化繁為簡。
全增量同步任務具有如下優勢:
全量數據初始化。
增量數據實時寫入。
增量數據和全量數據定時自動合并寫入新的全量表分區。
功能概述
全增量同步任務支持的能力如下圖所示:
功能 | 描述 |
復雜網絡環境下的數據同步 | 支持云數據庫、本地IDC、ECS自建數據庫或非阿里云數據庫等環境下的數據同步。您可以根據數據庫所在網絡環境,選擇合適的全增量同步任務來實現數據源與資源組的網絡連通。在配置同步任務前,您需要確保數據集成資源組與您將同步的數據來源端與目標端網絡環境已經連通,對應數據庫環境與網絡連通配置詳情請參見:配置資源組與網絡連通。 |
數據同步場景 | 全增量同步任務支持單表數據同步至目標端單表、分庫分表數據同步至目標端單表、整庫(多表)數據同步至目標端多表。 DataWorks為您提供多種類型的全增量同步任務。包括整庫離線同步(一次性全量同步、周期性全量同步、離線全增量同步、一次性增量同步、周期性增量同步)、一鍵實時同步(一次性全量同步,實時增量同步)。詳情請參見:支持的數據源及同步方案。 |
全增量同步任務配置 | 全增量同步任務配置時支持的能力如下,詳細配置請參見:數據集成側同步任務配置。任務配置相關能力說明請參見:數據集成側同步任務配置相關能力。 |
全增量同步任務運維 |
數據集成側同步任務配置相關能力
支持的能力 | 說明 |
刷新表映射 | 單擊刷新源端與目標端表映射按鈕后,下方表格會顯示刷新后的結果。如上圖所示, |
查看或修改單表表結構 | 單擊表名列的表名,可以打開可視化建表的配置窗口,支持您根據業務需要,對表進行編輯。 上圖示例對自動建表 重要 在自動建表場景下:
上圖示例對已有表 重要 在使用已有表場景下:
|
批量修改目標表結構 | 選中多行記錄后,單擊批量修改目標表結構按鈕,可以對選中表進行批量操作。調整完畢后,單擊應用并刷新映射按鈕進行保存。 重要
您還可以單擊 |
自定義目標schema名或表名 | 全增量同步任務默認將源端數據庫、數據表寫入目標端同名schema或同名表中,如果目標端不存在該schema或表,將會自動創建。同時,支持您定義最終寫入目標端的schema或表名稱。詳情請參見:設置表(庫)名的映射規則。 說明
|
為目標字段賦值 | 全增量同步任務默認同名映射,將源端字段寫入目標端同名字段中。同時,支持您為目標表新增字段并為字段賦值常量或變量。單擊目標表字段賦值列的編輯,彈窗會自動顯示出調整后的表結構。
說明 支持的變量解釋:
|
定義DDL/DML消息處理策略 | 針對源端DDL類型的消息,您可以在任務配置時,根據業務需要,對不同的DDL消息設置同步至目標端的處理策略。目標端支持的DML與DDL操作詳情請參見:支持的DML及DDL操作。 說明
|