表格存儲中的全量數據以及增量數據可以通過DataWorks數據集成同步到對象存儲中備份和使用。
實現原理
DataWorks數據集成的離線同步功能將不同數據源的同步抽象為從來源數據源讀取數據的Reader插件以及向目標數據源寫入數據的Writer插件,方便您通過定義來源與去向數據源并結合DataWorks調度參數使用,將來源數據源中的全量或增量數據同步到目標數據源中。如下圖所示。
同步表格存儲數據到OSS時,離線同步任務中會涉及到配置表格存儲相關的Reader插件和OSS相關的Writer插件。相關插件說明如下:
表格存儲相關的Reader插件
根據數據同步方式不同,要使用的表格存儲相關的Reader插件不同。具體說明請參見下表。
同步方式
所用插件
插件說明
全量導出
Tablestore(OTS) Reader
用于讀取表格存儲表中的數據,并可以通過指定抽取數據范圍實現數據增量抽取的需求。更多信息,請參見Tablestore數據源。
增量同步
OTSStream Reader
用于增量導出表格存儲表中的數據。更多信息,請參見Tablestore Stream數據源。
OSS相關的Write插件
不論使用的同步方式是全量導出或者增量同步,DataWorks均使用OSS Writer插件向OSS中寫入數據。更多信息,請參見OSS數據源。
同步方式
離線同步任務可以通過配置數據過濾并結合調度參數使用來決定同步全量數據還是增量數據。
同步方式 | 說明 |
全量導出 | 將表格存儲的全量數據一次性導出到OSS中備份或者使用。 使用此同步方式時,只需執行一次離線同步任務即可,無需為離線同步任務配置調度屬性。 |
增量同步 | 將表格存儲中新增和變化的數據定期同步到OSS中備份或者使用。 使用此同步方式時,需要配置離線同步任務的調度屬性用于周期性同步增量數據。 |
使用場景
適用于以更低成本備份表格存儲數據或者以文件形式導出表格存儲數據到本地的場景。
使用流程
不同同步方式的使用流程存在差異,請根據所用同步方案按照相應流程執行同步操作。具體操作,請參見導出全量數據到OSS和同步增量數據到OSS。
全量導出流程
全量導出的主要步驟說明請參見下表。
步驟 | 操作 | 說明 |
1 | 新增來源數據源 | 用于指定要同步數據的表所屬實例信息。來源數據源為表格存儲數據源。 |
2 | 新增目標數據源。 | 用于指定要同步到的OSS Bucket信息。目標數據源為OSS數據源。 |
3 | 新建離線任務節點 | 用于完成離線數據同步操作的任務。一個同步操作需要新建一個離線任務節點、 |
4 | 配置離線同步任務并啟動 | DataWorks數據集成提供了向導模式和腳本模式用于配置離線同步任務,請根據實際選擇合適的配置模式。
|
5 | 數據遷移結果驗證 | 完成數據導出操作后,在OSS控制臺查看導入的數據。 |
增量同步流程
增量同步的主要步驟說明請參見下表。
步驟 | 操作 | 說明 |
1 | 新增來源數據源 | 用于指定要同步數據的表所屬實例信息。來源數據源為表格存儲數據源。 如果已有表格存儲數據源滿足使用需求,請跳過此步驟。 |
2 | 新增目標數據源。 | 用于指定要同步到的OSS Bucket信息。目標數據源為OSS數據源。 如果已有OSS數據源滿足使用需求,請跳過此步驟。 |
3 | 新建離線任務節點 | 用于完成離線數據同步操作的任務。一個同步操作需要新建一個離線任務節點、 |
4 | 配置離線同步任務并啟動 | DataWorks數據集成提供了向導模式和腳本模式用于配置離線同步任務,請根據實際選擇合適的配置模式。
|
5 | 配置調度屬性 | 配置同步任務的執行時間、重跑屬性、調度依賴等,用于周期性執行同步任務。 |
6 | 調試代碼并提交任務 | 測試代碼能運行成功后,提交離線同步任務到服務端,便于后續按照調度屬性定期執行任務。 |
7 | 查看任務執行結果 | 在DataWorks控制臺查看任務運行狀態以及在OSS管理控制臺查看數據同步結果。 |
計費說明
數據同步到OSS時,表格存儲會收取讀取表格存儲數據的費用。表格存儲支持VCU模式(原預留模式)和CU模式(原按量模式)兩種計費模式,根據所用計費模式不同計費有差異。
VCU模式(原預留模式):計費項包括計算能力、數據存儲量和外網下行流量,其中數據存儲量包括高性能存儲、容量型存儲和多元索引存儲。
讀取表格存儲數據時會消耗計算資源,計算資源的計費涵蓋在計算能力費用中。
CU模式(原按量模式):計費項包括讀吞吐量、寫吞吐量、數據存儲量和外網下行流量,其中讀吞吐量包括預留讀吞吐量和按量讀吞吐量。
讀取表格存儲數據時會消耗讀吞吐量,表格存儲會根據實際計算消耗折算成CU進行計費。同時根據實例類型不同,計費時需要區分按量讀CU以及預留讀CU。
數據同步到OSS后,OSS會根據數據文件的存儲量和存儲時長收取存儲費用。當要下載文件到本地時,OSS會收取請求費用(Get類請求次數費用)和流量費用(外網流出流量費用)。更多信息,請參見OSS計費概述。