離線數據集成節點賦予任務流進行數據傳輸的能力,幫助您實現數據源之間的數據同步。本文介紹配置離線數據集成節點的方法。
應用場景
離線集成節點主要用于數據遷移、數據傳輸等場景。
功能特性
不限制來源表和目標表數據庫類型。
支持字段映射,包含修改源表和目標表字段的命名和類型映射。
可配置并發遷移數據。
支持通過WHERE語句,對遷移數據進行預過濾。
支持前置及后置SQL語句,在導入數據前后實現數據處理。
使用限制
系統在計算數據量過大且缺失主鍵的表時,會導致內存溢出或內存耗盡(OOM)。
周期調度節點最近一次運行成功后,若連續運行失敗10次及以上,離線集成任務直接執行失敗,且不會再提交Spark任務。此時,您需要手動運行成功該任務節點。
操作步驟
- 登錄數據管理DMS 5.0。
在頂部菜單欄中,選擇 。
說明若您使用的是極簡模式的控制臺,請單擊控制臺左上角的圖標,選擇
。單擊目標任務流名稱,進入任務流詳情頁面。
說明如果您需要新增任務流,請參見新增任務流。
可選:單擊圖標,您還可以展開任務流基本信息配置面板。
說明單擊圖標,縮回任務流基本信息配置面板。
在畫布左側任務類型列表中,拖拽離線數據集成節點到畫布空白區域。
雙擊離線數據集成節點。
可選:在離線數據集成節點的配置頁面,單擊頁面右側的變量設置,配置該節點需要引用的變量。您可以單擊變量設置區域右上角的,查看配置變量的提示信息。
在離線數據集成節點的配置頁面,配置離線數據集成節點。
分類
配置項
描述
數據源配置
源庫
搜索并選擇來源庫。
源表
選擇源表。
目標庫
搜索并選擇目標庫。
目標表
如果目標表存在,選擇目標表。
如果目標表不存在:
單擊目標表下拉框下方的創建目標表。
可選:在生成創建表腳本對話框中,按需求修改自動生成的SQL語句。
單擊提交執行。
選擇目標表。
源表配置
數據過濾
填寫WHERE過濾語句。支持使用變量。
推薦分片字段
默認取值為自動。
最大并發數量
選擇最大并發數量,默認取值為4。
說明DMS限制單個租戶的并發Spark任務數量,超過4后,任務將會排隊執行。
目標表配置
導入數據前置行為
輸入導入數據前執行的SQL語句,選擇是否清空目標表數據。
導入數據后置行為
輸入導入數據后執行的SQL語句。
字段映射
-
您可以根據需要選擇目標表全部字段的映射關系。
同名映射:系統默認將同名字段連接為映射關系。
說明您需要手動為未添加映射關系的目標表字段添加映射關系。
同行映射:將同行的字段連接為映射關系。
手動映射:
可選:單擊取消映射,取消字段的映射關系。
將鼠標移動到目標源表字段上,單擊字段類型右側出現的空心圓點并拉出連接線,連接至目標表字段上。
可選:為全部目標表字段添加映射關系后,單擊自動排版,重排目標表字段的順序。
單擊頁面左上角的試運行,在提示對話框中單擊確認,試運行離線數據集成節點。
運行時間與數據規模成正比,數據規模越大,運行耗時時間越長。
如果執行日志的最后一行出現
status SUCCEEDED
,表明任務試運行成功。試運行成功后,您可以在目標庫的SQL窗口中,查詢目標表中已遷移的數據。
如果執行日志的最后一行出現
status FAILED
,表明任務試運行失敗。若試運行失敗,您可在執行日志中查看執行失敗的節點和原因,修改配置后重新嘗試。
說明在數倉開發的標準模式下,試運行離線數據集成節點時,該節點會空跑,以避免造成不期望的影響。