本文以MySQL離線同步寫入MaxCompute場景為例,為您介紹如何把MySQL整個數據庫的數據離線同步到MaxCompute。
使用限制
本實踐僅支持使用獨享數據集成資源組。
前提條件
已完成來源數據源、去向數據源的配置。
本實踐以MySQL作為來源數據源,以MaxCompute作為去向數據源,因此您需要在DataWorks的工作空間的數據源管理頁面新增MySQL數據源和MaxCompute數據源,兩個數據源支持的數據同步能力請參見MySQL數據源、MaxCompute數據源。
已購買獨享數據集成資源組,并為資源組綁定工作空間、完成網絡連通配置。
本實踐僅支持使用獨享數據集成資源組,您需購買并配置獨享資源組,保障資源組與MySQL數據源、MaxCompute數據源網絡連通,獨享數據集成資源組的購買與配置操作請參見新增和使用獨享數據集成資源組。
創建同步任務
進入數據集成頁面。
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的 ,在下拉框中選擇對應工作空間后單擊進入數據集成。
在頁面中的創建同步任務后選擇來源為MySQL,去向為MaxCompute,單擊開始創建,開始配置同步任務。
配置同步任務基本信息。
新任務名稱:自定義。
同步類型:選擇整庫離線。
同步步驟:
若您需要進行一次性全量或周期性全量同步,此處請勾選全量同步。
若您需要進行一次性增量或周期性增量同步,此處請勾選增量同步。
若您需要進行一次性全量周期性增量同步,此處請同時勾選全量同步和增量同步。
網絡與資源配置:在下拉框中分別選擇已創建的MySQL數據源、MaxCompute數據源、獨享數據集成資源組,單擊測試所有連通性,保障資源組與數據源之間的網絡連通性。
配置任務個性化信息。
根據界面提示選擇要同步的MySQL表。當前支持通過正則表達式進行庫名、表名搜索過濾。
配置目標表屬性。此操作會影響通過數據集成新建表的表結構,已有表的表格式不受影響。
分區初始化設置:決定新建表的分區初始化值,默認只有一級分區,您可以通過配置按鈕進行修改。當前整庫離線同步僅支持MaxCompute目標表為分區表,不支持非分區表。
配置全增量控制:
配置任務的全增量類型。
如果您的同步步驟勾選了全量同步和增量同步,此處默認展示一次性全量,周期性增量,不可更改。
如果您的同步步驟選擇了全量同步,在全增量控制面板頁面,可以選擇任務的類型是一次性全量還是周期性全量。
如果您的同步步驟選擇了增量同步,在全增量控制面板頁面,可以選擇任務的類型為一次性增量還是周期性增量。
說明以下以一次性全量周期性增量為例,為您示例后續的配置要點。
配置周期調度參數。如果您的任務涉及周期性同步,則可單擊周期調度參數配置進行配置。
配置目標表映射。
全選目標表映射框中的表信息,點擊批量刷新表映射按鈕,進行表映射刷新。
根據界面提示配置周期配置、增量條件、目標表名映射自定義、目標表字段賦值、自定義高級參數等參數,配置要點如下。
周期配置:對周期同步的調度周期、重跑屬性、調度資源組等進行配置。
增量條件:對源端進行where字句過濾,此處只需寫where子句,不需要寫出where關鍵字。如果啟用了周期性配置,可以使用系統參數變量。例如:
STR_TO_DATE('${bizdate}', '%Y%m%d') <= columnName AND columnName < DATE_ADD(STR_TO_DATE('${bizdate}', '%Y%m%d'), interval 1 day)
目標表名映射自定義:可以使用內置變量和手動輸入的字符串拼接成為最終的目標表名。
目標表字段賦值:對目標端普通字段或分區字段進行賦值。
自定義高級參數:可以支持定制化設置,每張表的高級參數配置,如每張表同步前是否清空表、同步任務并發度、是否允許臟數據等。
配置任務高級參數。
點擊高級參數配置,可以配置任務維度的高級參數配置,如離線任務源端最大連接數、同步前是否清空表、同步任務并發度、是否允許臟數據等。表維度的自定義高級參數配置優先于任務維度的高級參數使用。
完成上述所有任務配置后,單擊完成配置,完成同步任務的配置。
任務運維
啟動同步任務
完成配置之后,界面會自動跳轉到任務列表頁面,您可以單擊對應任務的操作列的啟動按鈕,啟動同步任務。
查看任務詳情
您可以單擊任務名稱或執行概況的空白處,查看任務詳情。任務詳情包含以下幾個部分。
基本信息:包括任務的數據源信息,綁定的資源組以及同步方案。
執行狀態:MySQL到MaxCompute的離線整庫同步任務細分后的同步步驟詳情。
如果您的任務同步類型為全量同步,此處展示結構遷移以及全量同步。
如果您的任務同步類型為增量同步,此處展示結構遷移以及增量同步。
如果您的任務同步類型為全量同步、增量同步,此處展示結構遷移、全量同步以及增量同步。
詳細信息:針對"結構遷移"以及"全量同步"、"增量同步"的信息執行步驟。
結構遷移中包含目標表的創建方式(已有表/自動建表),如果是自動建表,則會為您展示建表的DDL。
全量同步中包含離線同步的表信息、同步的進度、以及寫入的條數。
增量同步中包含周期任務對應的最新周期實例的相關指標信息。
任務重跑
直接重跑:不修改任務配置,直接單擊重跑操作。
效果:重跑一次性任務、周期性任務屬性做更新。
修改后重跑(增減表場景):編輯任務,進行增減表的操作, 單擊完成。這個時候任務的操作會變成"應用更新",單擊應用更新會直接觸發修改后的任務重跑。
效果:新增的表才會進行同步,之前同步過的表不會再同步。
修改后重跑(修改表名信息):編輯任務,進行目標表的名稱修改或者切換同步的目標表,單擊完成。這個時候任務的操作會變成"應用更新",單擊應用更新會直接觸發修改后的任務重跑。
效果:同步修改過的表,沒有修改的表不會再進行同步
任務停止
您可以單擊對應任務的操作列的停止按鈕,停止同步任務。