數據集成包括離線同步、實時同步和同步解決方案三個功能模塊。選擇使用哪個功能模塊,您需考慮要進行的數據同步是離線還是實時、增量還是全量等,不同模塊的支持情況不同,此外還需要重點關注:數據的來源與去向、待同步的表或庫的數量等。本文為您概要介紹數據集成各模塊的支持情況及核心參考維度。
選擇前了解:數據集成各模塊能力
數據集成各功能模塊對離線與實時、增量與全量、表與庫的數量的概要支持情況如下,您可參考下表過濾選擇當前數據同步場景下可用的數據集成模塊,后續再參考下文的核心參考維度(支持的數據源與讀寫能力、支持同步的庫或表的個數)選擇具體的功能模塊來配置同步任務。
維度 | 離線同步模塊 | 實時同步模塊 | 同步解決方案模塊(整庫離線同步) | 同步解決方案模塊(全增量實時同步) | |
---|---|---|---|---|---|
維度1:離線與實時 | 離線 | √ | × | √ | √ |
實時 | × | √ | × | ||
維度2:增量與全量 | 全量 | √ | × | √(一次性全量同步、周期性全量同步、離線全增量同步) | √(一次性全量同步,實時增量同步) |
增量 | √ | √ | √(一次性增量同步、周期性增量同步) | ||
維度3:表與庫的數量 | 單表 (單表>單表) | √ | √ | × | √ |
整庫 (多表>多表) | × | √ | √ | √ | |
分庫分表 (多表>單表)
說明 部分數據源支持分庫分表。
|
√ | √ | × | √ | |
維度4:支持的來源與去向數據源 | DataWorks為您提供數據讀取(Reader)和寫入插件(Writer)實現對數據源的讀寫操作,支持的數據源詳情請參見:支持的數據源與讀寫插件。 | 支持您將多種輸入及輸出數據源搭配組成同步鏈路進行數據同步。支持的數據源詳情請參見:實時同步支持的數據源。 | DataWorks為您提供多種數據源之間進行不同數據同步場景的同步解決方案。支持的數據源詳情請參見:支持的數據源與讀寫能力。 | ||
功能介紹文檔 | 離線同步能力說明 | 實時同步能力說明 | 同步解決方案能力說明 |
說明
- 實時全增量同步:一次性同步全量數據,然后實時同步增量數據至目標端。
首次將源端單表或多表全量數據寫入目標單表或多表某一指定分區,之后增量數據與全量數據合并后實時寫入表對應分區中。
- 離線全增量同步:一次性同步全量數據,然后周期性同步增量數據至目標端。
首次將源端多表全量數據全量寫入目標單表或多表某一指定分區,之后增量數據周期性寫入表對應分區中。
核心參考維度
您可以從以下核心維度選擇對應的數據集成模塊進行同步任務的配置。
- 支持的數據源與讀寫能力維度:
進行同步任務配置時,您可以先根據需要同步的來源與去向數據源,及DataWorks各模塊對數據源的支持情況,選擇對應的功能模塊進行同步任務的配置。
說明 在實時同步場景下,你還需要了解寫入的目標數據源,對源端DDL和DML操作的支持情況。詳情請參見支持的DML及DDL操作。 - 支持同步的庫或表個數維度:
您還可以根據源端待同步的庫個數、表個數與需要寫入目標端的表個數,選擇對應的功能模塊進行同步任務的配置。
附錄:各模塊寫入表分區說明
- 離線同步
增量數據同步場景下,您可以通過運維中心的補數據功能,將歷史數據寫入目標表的對應時間分區中。詳情請參見:配置增量數據離線同步任務。
- 實時同步:源表增量數據實時寫入目標表T-1分區。
- 同步解決方案
同步方案 數據寫入說明 離線全增量同步 - 任務配置當天T,源表全量數據一次性寫入目標表T-1分區。
- 任務配置第T+N天,源表增量數據周期性寫入目標表T+N-1分區。
實時全增量同步 - 任務配置當天T,源表全量數據一次性寫入目標表T-1分區,源表增量數據與全量數據合并后實時寫入目標表T-1分區。
- 任務配置第T+N天,源表增量數據與全量數據合并后實時寫入表T+N-1分區。
說明 一鍵實時同步至MaxCompute場景下,任務配置當天會將數據寫入增量Log表,待第二天再將源表增量數據合并寫入全量表中。周期性全量同步 源表全量數據周期性寫入目標表T-1分區。 一次性全量同步 任務配置當天T,源表全量數據一次性寫入目標表T-1分區。 周期性增量同步 源表增量數據周期性寫入目標表T-1分區。 一次性增量同步 任務配置當天T,源表增量數據一次性寫入目標表T-1分區。