本文以Oracle同步至表格存儲Tablestore場景為例,為您介紹如何通過數據集成將Oracle的某張表數據實時同步到Tablestore。
使用限制
本實踐僅支持使用獨享數據集成資源組。
前提條件
已完成來源數據源、去向數據源的配置。
本實踐以Oracle作為來源數據源,以Tablestore作為去向數據源,因此您需要在DataWorks的工作空間的數據源管理頁面新增Oracle數據源和Tablestore數據源,兩個數據源支持的數據同步能力請參見Oracle數據源、Tablestore數據源。
已購買獨享數據集成資源組,并為資源組綁定工作空間、完成網絡連通配置。
本實踐僅支持使用獨享數據集成資源組,您需購買并配置獨享資源組,保障資源組與Oracle數據源、Tablestore數據源網絡連通,獨享數據集成資源組的購買與配置操作請參見新增和使用獨享數據集成資源組。
創建同步任務
登錄并進入數據集成子模塊頁面,單擊同步任務進入同步任務頁面,在頁面中單擊新增任務,開始配置同步任務。
配置同步任務基本信息。
任務名稱:自定義。
同步類型:來源數據源選擇Oracle,去向數據源選擇Tablestore;并選擇單表實時同步方案。
網絡與資源配置:在下拉框中分別選擇已創建的Oracle數據源、Tablestore數據源、獨享數據集成資源組,單擊測試所有連通性,保障資源組與數據源之間的網絡連通性。
配置Oracle來源信息。
單擊頁面上方的Oracle來源,在Oracle來源信息選擇所需要同步Oracle表的Schema、表名。
單擊右上角的數據采樣。
在彈出對話框中指定好采樣條數后,單擊開始采集按鈕進行數據采樣,采樣后您可快速預覽源表數據。
編輯數據處理節點。
單擊圖標可以增加數據處理方式。目前提供5種數據處理方式,您可根據需要做順序編排,在任務運行時會按照編排的數據處理先后順序執行數據處理,5種數據處理方式包括:數據脫敏、字符串替換、數據過濾、JSON解析和字段編輯與賦值。
每完成一個數據處理節點配置,可以單擊右上角的數據輸出預覽按鈕,在彈出對話框中,單擊重新獲取上游輸出,模擬得到Oracle采樣數據經過當前數據處理節點處理后的結果。
在數據輸出預覽窗口,您可以根據需要修改輸入數據,或者單擊手工構造數據按鈕自定義輸入數據,然后單擊預覽按鈕,查看當前數據處理節點對數據的處理結果,當數據處理節點處理異常,或者產生臟數據時,也會實時反饋異常信息,能夠幫助您快速評估數據處理節點配置的正確性,以及是否能得到預期結果。
說明數據輸出預覽強依賴Oracle來源的數據采樣,在執行數據輸出預覽前需要先在Oracle來源表單中完成數據采樣。
配置Tablestore去向信息。
單擊頁面上方的Tablestore,編輯Tablestore去向源信息。
配置基本信息。
選擇要寫入的Tablestore目標表。
選擇要寫入的Tablestore表數據更新模式。支持兩種數據更新模式:
replace:行變更,直接使用更新后的數據覆蓋原有行。
update:列變更,只針對數據發生變化的列進行更新。
配置字段映射。
在輸出字段區域為您展示Tablestore表結構中的主鍵字段、屬性字段。您也可以通過單擊重新獲取表字段重新觸發表結構查詢。還支持您單擊批量添加源端字段為屬性字段快速把源表中的字段,添加為Tablestore表的屬性字段。
準備好Tablestore目標表字段后,您可以配置源表和目標表之間的字段映射,支持同名映射、同行映射或您可將鼠標懸浮在字段映射連線上手動編輯字段間的映射關系。當上游列未配置到Tablestore表列的映射時,對應列不會寫入Tablestore表。
高級參數配置。
如果需要對任務做精細化配置,達到自定義同步需求,單擊頁面右上角的高級參數配置,對讀同步任務的讀端、寫端以及運行時的參數進行配置。
報警配置。
為能夠及時感知到同步任務的異常并做出響應和處理,您可以對同步任務設置不同的報警策略。
模擬運行。
完成上述所有任務配置后,您可以通過模擬運行功能,模擬整個任務針對采樣數據的處理,查看數據寫入Tablestore表后的結果。當任務配置錯誤、模擬運行過程中異常或者產生臟數據時,會實時反饋出異常信息,能夠幫助您快速評估任務配置的正確性,以及是否能得到預期結果。
任務運維
啟動同步任務
完成配置之后,界面會自動跳轉到任務列表頁面,您可以單擊對應任務的操作列的啟動按鈕,啟動同步任務。
在初次啟動任務時,您需要指定該任務的啟動位點,以下圖為例選擇2023-08-16 11:00:00,表示從該時間點的實時數據開始同步。
查看任務運行狀態
創建完成同步任務后,您可以在同步任務頁面,找到已創建的同步任務,單擊任務名稱或執行概況空白處,查看任務的運行詳情。
運行日志:您可以查看實時任務的運行日志。
Failover:在任務出現異常、內存不足等問題時,會觸發Failover自動重啟任務,您可以查看任務的Failover歷史記錄。
運行信息:查看當前任務的同步信息。
DDL記錄:當源端發生DDL時,DDL會被記錄到此處。
任務重跑
直接重跑:不修改任務配置,直接單擊同步任務操作列的更多>重跑。
效果:重新運行一次從結構遷移到啟動實時同步的流程。
修改后重跑:編輯任務,進行修改操作后,單擊完成。此時任務的操作會變成應用更新,單擊應用更新會直接觸發修改后的任務重跑。
效果:實時同步任務會按照新的配置運行。