數據同步支持離線數據同步任務的新建。離線數據同步任務支持的云計算資源類型為MySQL、Oracle、SQL Server、Hdfs、ftp、PostgreSQL、Hive、MaxCompute、AnalyticDB PostgreSQL、OSS。本文以同步MySQL數據源到MaxCompute目標端為例,介紹如何新增離線數據同步。
前提條件
操作步驟
登錄數據資源平臺控制臺。
在頁面左上角,單擊圖標,選擇協同。
在頂部菜單欄,單擊圖標,選擇目標工作組,單擊資產加工。
在左側導航欄,單擊圖標,將鼠標懸停在離線數據同步上,單擊圖標。
在離線數據同步頁面,單擊新增任務。
配置任務基本信息:在離線數據同步管理頁面上方,填寫任務名稱、所屬類目、描述。
配置同步資源,包括源端和目標端。
參數
說明
源端配置
數據源
選擇源端數據源。
單擊查看同步鏈路支持范圍,可查看離線同步鏈路源端和目標端支持范圍。
在數據源下拉列表,單擊創建數據源,可在彈出的面板中新建云計算資源。
數據表
選擇待同步的數據表。
在數據表下拉列表,單擊獲取物理表,可獲取最新物理表Meta信息。
選擇待同步的數據表后,單擊查看字段信息,可查看待同步物理表字段信息詳情。
同步模式
支持全量和增量兩種同步模式。
如果選擇全量,全量同步可自定義輸入sql條件根據輸入的條件進行全量數據同步(僅限MySQL和PostgreSQL數據資源類型)
如果選擇增量,可選擇:
增量字段key或value。
字段數據類型時間字符串、整體字符串、浮點字符串、字符串。
數據字段選項僅適用于關系型數據庫例如:MySQL、Oracle、SQL Server、PostgreSQL等類型的數據源。
適用的字段類型包括字符串類型字段,類如:
Oracle字符串類型varchar,varchar2,char。
MySQL字符串類型varchar,char。
取數規則:只針對日期數據做取數規則,其中yyyy表示4位的年份、yy表示2位的年份、mm(MM)表示月、dd表示天、hh24表示小時(12進制使用hh)、mi表示分鐘、ss表示秒。您可以任意組合參數,例如$[yyyymmdd]、$[yyyy-mm-dd]、$[hh24miss]、$[hh24:mi:ss]和$[yyyymmddhh24miss]等。
${}表達式可取業務日期數據,最小單位為天,例:${yyyyMMdd},表示取前一天數據,${yyyyMM-1}表示取前一個月數據。
$[]表達式取調度時間,最小單位為天,例:$[yyyyMMdd-1/24],表示取當前時間前一小時數據。
支持時間戳取數函數sysMillis(毫秒)、sysSeconds(秒),單位為天,例:${sysMillis},表示取前一天數據。
自定義條件
支持填寫SQL語句下WHERE子句限定條件(無需填寫WHERE關鍵字),同步時會使用此限定條件進行數據過濾,當前暫不支持使用變量參數,示例:mydate<'2022-12-19'。
目標端配置
目標端
選擇目標端數據源。
在數據源下拉列表,單擊創建數據源,可在彈出的面板中新建云計算資源。
數據表
選擇或新建同步目標數據表。
在數據表下拉列表,單擊創建目標對象,可創建表作為同步目標數據表,支持創建分區表。
在數據表下拉列表,單擊獲取物理表,可獲取最新物理表Meta信息。
分區字段
分區字段信息。
寫入處理規則
選擇寫入處理規則,包括寫入前清理已有數據、保留已有數據。如果設置了取數規則,則該功能不可用。
配置字段映射:在字段映射區域,系統默認為同名映射,可根據需要選擇同行映射或通過拖拽連線自定義完成字段映射。
配置通用控制。
參數
說明
依賴配置
支持配置上游依賴節點,可依賴同周期數據同步節點或數據開發節點。開啟后將等待上游節點調度運行成功后,再運行當前節點。
表結構變化
選擇是否開啟檢測表結構變化。開啟后,以天為單位,進行數據源端表結構檢測。若發現表結構變更,則進行異常推送。異常信息可在“運維監控 - 全景監控”中查看。
資源組
選擇資源組。
資源規格
請設置任務實例運行需要的CPU內核(系統默認2個)與內存(系統默認1024 MB)。
速率
設置任務的速率上限,任務運行會盡可能達到該速度但是不是超過它。
字節/秒:每個通道每秒傳輸的字節流上限。
記錄/條:每個通道每秒傳輸的記錄數上限。
說明字節流和記錄數兩個上限,誰先達到,誰先起作用。
在頁面右側單擊調度配置,配置任務調度。
參數
說明
周期調度
依賴本節點上一周期調度
打開周期調度開關后,選擇是否打開依賴本節點上一周期調度開關。
任務異常自動下線
選擇是否打開任務異常自動下線開關。
生效日期
調度將在有效日期內生效并自動調度,反之,在有效期外的任務將不會自動調度,也不能手動調度。
調度周期
全量和增量的調度周期均分為分鐘,小時,日,周,月。
分鐘:設置開始時間、結束時間和時間間隔。時間間隔指的是每隔多少分鐘任務運行一次。
小時:設置開始時間、結束時間和時間間隔。間隔時間指的是每隔多少小時任務運行一次。
天:設置同步任務每天運行的具體時間。
周:選擇每周星期幾運行,并設置運行的具體時間,可多選。
月:選擇每月幾號運行,并設置運行的具體時間,可多選。
時間表達式(cron)
選中手動修改,可自定義時間表達式。
失敗重試
重試次數
打開失敗重試開關后,可設置任務重試次數。
重試間隔(秒)
設置任務重試間隔,單位為秒。
超時時間
設置任務的超時時間,單位為分鐘。
監控配置
開啟后,上線的同步任務將自動推送到監控運維的監控任務管理中,默認開啟監控配置。
配置完成后,在離線數據同步管理頁面左上角,單擊圖標。
系統提示任務創建成功。
相關操作
操作 | 說明 |
查看同步任務 | 在任務列表中,單擊目標同步任務操作列的更多,選擇查看,可查看同步任務詳細內容。 |
修改同步任務 | 在任務列表中,對于未運行的同步任務,單擊操作列的更多,選擇修改,可對同步任務進行修改。 |
刪除同步任務 |
|
查看依賴節點 | 在目標同步任務的操作列的更多,選擇下游節點,可查看當前任務依賴的上游節點和下游節點。 |
查看運行記錄 | 單擊目標同步任務的操作列的運行記錄,即可查看同步任務的運行記錄。 |
后續步驟
新增同步任務后,需要對任務進行上線操作,具體操作,請參見上線離線數據同步任務。