整庫實時同步方案為您先進行全量數據遷移,然后再實時同步增量數據至目標端。本文為您介紹如何創建整庫實時同步MySQL到StarRocks的任務。
前提條件
已完成數據源配置。您需要在數據集成同步任務配置前,配置好您需要同步的源端和目標端數據庫,以便在同步任務配置過程中,可通過選擇數據源名稱來控制同步任務的讀取和寫入數據庫。實時同步支持的數據源及其配置詳情請參見實時同步支持的數據源。
說明???數據源相關能力介紹詳情請參見:數據源概述。
?已購買通用型資源組。詳情請參見:通用型資源組(新版資源組)。
資源組與數據源網絡已打通。詳情請參見:網絡連通方案。
使用限制
實時數據同步任務僅支持使用通用型資源組(新版資源組)。
注意事項
整庫實時同步MySQL到StarRocks要求您的目標StarRocks表為主鍵模型。
整庫實時同步MySQL到StarRocks暫不支持除清空表(TRUNCATE)以外的DDL同步,對于其他DDL類型您可以選擇忽略或報錯提示。
操作步驟
步驟一:選擇同步方案
進入數據集成頁面。
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的 ,在下拉框中選擇對應工作空間后單擊進入數據集成。
在數據集成首頁單擊選擇同步任務,進入同步任務配置頁面。
選擇來源類型MySQL、去向類型StarRocks,點擊開始創建。
在新任務名稱區域配置當前方案名稱。
在同步類型區域根據業務需要選擇整庫實時。
在同步步驟按需要進行選擇全量同步、增量同步、或全量同步+增量同步。
步驟二:配置網絡連通
源端選擇已創建的源端數據源MySQL與目標端數據源StarRocks,以及用于執行同步任務的資源組。并測試資源組與數據源的網絡連通。詳情請參見:數據集成側同步任務配置。
步驟三:選擇待同步的表
此步驟中,您可以在源端庫表區域選擇源端數據源下需要同步的表,并單擊圖標,將其移動至已選庫表。同時,支持通過正則表達式過濾庫與表。
步驟四:目標表映射
在上一步驟選擇完需要同步的表后,將自動在此界面展示當前待同步的表,但目標表的相關屬性默認為待映射狀態,需要您定義并確認源表與目標表映射關系,即數據的讀取與寫入關系,然后單擊刷新映射后才可進入下一步操作。您可以直接刷新映射,或自定義目標表規則后,再刷新映射。
您可以選中待同步表后,單擊批量刷新映射,未配置映射規則時,默認根據源表表名寫入同名的StarRocks表,若目標端不存在同名表時,將自動新建。
在進行自定義目標表名等操作時,若在表格中未找到相關信息列,您可以單擊表格右上方按鈕自定義表格的顯示列。
目標表名映射自定義
在目標表名映射自定義列,單擊編輯按鈕。可以使用內置變量和手動輸入的字符串拼接成為最終目標表名。其中,支持您編輯內置變量,例如,做字符串替換。
應用目標表名映射規則。
對某個表修改表名映射:在目標表名映射自定義列,修改具體表的映射規則。
批量表修改表名映射:選中待同步的所有表,在表格底部選擇
,選擇已創建的規則,使規則生效。
編輯字段類型映射
同步任務存在默認的源端字段類型與目標端字段類型映射,您可以單擊表格右上角的編輯字段類型映射,自定義源端表與目標端表字段類型映射關系,配置完后單擊應用并刷新映射。
編輯目標表結構并添加字段賦值
您可以為目標表在原有表結構基礎上新增字段、定義分區或添加字段賦值。
為目標表添加字段
單表新增字段:單擊目標表名列的按鈕添加字段。
批量新增字段:選中待同步的所有表,在表格底部選擇
。
為目標表定義分區:當前支持RANGE分區結構化定義
不分區:則目標表為非分區表。
指定區間分區:需指定分區名稱、分區值上界、分區值下界。
指定上限值分區:需指定分區名稱、分區值上界。
指定區間和步長分區:需指定分區字段、開始值、結束值、分區步長。
為字段賦值
單表賦值:單擊目標表字段賦值列的配置,為目標表字段賦值。
批量賦值:選中待同步的所有表,在列表底部選擇
。
DML規則配置
數據集成提供默認DML處理規則,同時,您可以根據業務需要在此界面對寫入StarRocks的DML命令定義處理規則。
單表定義規則:單擊DML規則配置列,對目標表單獨定義DML規則。
批量定義規則:選中待同步的所有表,在列表底部選擇
。
步驟五:報警配置
為避免任務出錯導致業務數據同步延遲,您可以對實時同步子任務設置不同的報警策略。
單擊頁面右上方的報警設置,進入實時同步子任務報警設置頁面。
單擊新增報警,配置報警規則。
管理報警規則。對于已創建的報警規則,您可以通過報警開關控制報警規則是否開啟,同時,您可以根據報警級別報警給不同的人員。
步驟六:高級參數配置
數據集成提供數據庫最大連接數,并發度等配置的默認值,如果需要對任務做精細化配置,達到自定義同步需求,您可對參數值進行修改,例如通過最大連接數上限限制,避免當前同步方案對數據庫造成過大的壓力從而影響生產。
請在完全了解對應參數含義情況下再進行修改,以免產生不可預料的錯誤或者數據質量問題。
配置區域 | 參數 | 說明 |
讀端配置 | 源端最大連接數 | 支持您通過該參數控制當前同步方案所產生的同步任務可占用的源端數據庫連接數,即同一時間內,當前同步解決方案任務讀取數據庫的并發數上限。 |
寫端配置 | 寫端最大連接數 | 支持您通過該參數控制當前同步方案所產生的同步任務可占用的目標端數據庫連接數。 |
運行時配置 | 任務并發度 | 支持您通過該參數控制當前同步方案所產生的同步任務的并發數。 |
數據格式 | 同步任務寫入StarRocks時傳輸使用的數據格式,可選值 | |
行分隔符 | 如數據格式選擇 | |
列分隔符 | 如數據格式選擇 |
步驟七:DDL能力配置
來源數據源會包含許多DDL操作,您可以根據業務需求,單擊界面右上方DDL能力配置,進入DDL能力配置頁面對不同的DDL消息設置同步至目標端的處理策略。
整庫實時同步MySQL到StarRocks暫不支持除清空表(TRUNCATE)以外的DDL同步。
步驟八:資源組配置
您可以單擊界面右上方的資源組配置,查看并切換當前的任務所使用的同步資源組。
步驟九:執行同步任務
完成所有配置后,單擊頁面底部的完成配置。
說明任務配置已完成,在提示彈窗中,點擊確定將會跳轉至任務列表頁。您可以在任務列表單擊任務名稱,查看任務詳情。
在任務列表中找到已創建的數據同步任務,單擊操作列的啟動。
單擊名稱/ID列的任務名稱,查看任務的詳細執行過程。
步驟十:任務運維
啟動同步解決方案任務后,您可以在任務列表列點擊任務名稱,進入對應任務運維頁。任務運維頁將按照同步步驟展示對應的概要和詳細信息。
后續步驟
后續您可以對已創建的任務進行管理、執行加減表操作、或對任務配置監控報警等。