整庫離線同步方案包括周期性全量同步、周期性增量同步、一次性全量同步、一次性增量同步、一次性全量周期性增量同步。本文以一次性全量周期性增量同步至MaxCompute為例,為您講解如何將整庫數據離線同步至MaxCompute。
前提條件
已完成數據源配置。您需要在數據集成同步任務配置前,配置好您需要同步的源端和目標端數據庫,以便在同步任務配置過程中,可通過選擇數據源名稱來控制同步任務的讀取和寫入數據庫。同步任務支持的數據源及其配置詳情請參見支持的數據源及同步方案。
說明數據源相關能力介紹詳情請參見:數據源概述。
已完成數據源環境準備。您可以基于您需要進行的同步配置,在同步任務執行前,授予數據源配置的賬號在數據庫進行相應操作的權限。詳情請參見:數據庫環境準備概述。
背景信息
各類方案介紹及寫入表分區說明請參見:數據集成側同步任務能力說明。
操作流程
步驟一:選擇同步方案
創建同步解決方案任務,根據需求選擇需要同步的源端數據源和目標端數據源,并選擇整庫離線同步至MaxCompute方案。
步驟二:配置網絡連通
源端選擇已創建的源端數據源與目標端數據源,以及用于執行同步任務的資源組。并測試資源組與數據源的網絡連通。詳情請參見:配置同步網絡鏈接。
步驟三:設置同步來源與規則
在基本配置區域,配置同步解決方案的名稱、任務存放位置等信息。
在數據來源區域,確認需要同步的源端數據源相關信息。
在選擇同步的源表區域,選中需要同步的源表,單擊圖標,將其移動至已選源表。
該區域會為您展示所選數據源下所有的表,您可以選擇整庫全表或部分表進行同步。
在設置表名的映射規則區域,單擊添加規則,選擇相應的規則進行添加。
同步時默認將源端數據表寫入MaxCompute同名表中,同時,您可以通過添加映射規則定義最終寫入目的端的表名稱。支持通過正則表達式轉換寫入的表名,還支持指定內置變量拼接目標表名。您可以通過該功能實現將多張表數據寫入到同一個表中,或統一將源端某固定前綴的表名在寫入目標表時更新為其他前綴。配置邏輯請參見:數據集成側同步任務配置。
步驟四:設置目標表
時間自動分區設置。
目前僅支持將源端數據寫入MaxCompute分區表,您可以單擊圖標定義目標表分區字段名稱。
刷新源表與目標表映射。
單擊刷新源表和MaxCompute表映射將根據您在步驟三配置的目標表名映射規則來生成目標表,若步驟三未配置映射規則,將默認寫入與源表同名的目標表,若目標端不存在該同名表,將默認新建。同時,您可以修改表建立方式、為目標表在原有表字段基礎上增加附加字段。
說明目標表名將根據您在設置表名的映射規則階段配置的表名轉換規則自動轉換。
功能
描述
為非主鍵表選擇主鍵
由于當前方案不支持無主鍵表同步,所以您需要單擊同步主鍵列的按鈕,為無主鍵表設置自選主鍵,即選擇表中一個或部分字段作為主鍵,寫入目標端時將會使用該主鍵進行去重。
選擇表建立方式
支持自動建表和使用已有表。
當表建立方式選擇使用已有表時,MaxComputeBase 表名列顯示已有MaxCompute表名稱。您也可以在下拉列表中選擇需要使用的表名稱。
當表建立方式選擇自動建表時,顯示自動創建的表名稱。您可以單擊表名稱,查看和修改建表語句。
編輯目標表結構
目前自動建表生成的MaxCompute表生命周期默認只有30天,并且可能存在字段類型映射,即若目標端數據庫中沒有與源端一致的數據類型時,同步任務在自動創建目標表時,將自動為源端字段匹配目標端可寫入的字段類型。若您需要修改MaxCompute表生命周期或修改目標表字段類型映射,您可單擊MaxCompute 表名列的目標表名進行修改。
步驟五:同步規則設置
配置全量同步的數據規則。
您可以根據實際情況選擇是否寫入前清空對應的原有表,選擇是后,后續進行數據同步時,每次向MaxCompute寫入數據前,均會刪除MaxCompute表內原有的數據,建議您謹慎選擇。
配置增量同步的數據規則。
您可通過where語句對待同步的數據表進行過濾,且只需在增量條件框中填寫where子句,無需寫where關鍵字。同時,在寫where子句時,您可以使用系統內置變量,例如使用
${bdp.system.bizdate}
指代業務日期、使用${bdp.system.cyctime}
指代定時時間等。說明您可以使用調度參數來指定同步源表及目標表的數據范圍,調度參數使用說明請參見:數據集成使用調度參數的相關說明。
配置數據同步的調度周期。
根據任務運行需求設置數據同步任務的調度周期,包括調度周期、生效日期、暫停調度等。調度屬性的配置與一般節點任務的調度屬性配置類似,參數詳情可參見時間屬性配置說明。
步驟六:運行資源設置
該同步方案將分別創建全量離線同步任務和增量離線同步任務,您可以在此步驟配置任務名稱及任務執行所使用的調度資源組與數據集成任務執行資源組,同時,數據集成提供數據庫最大連接數、并發數等配置的默認值,如果您需要對任務做精細化配置,您可通過高級配置進行修改。
DataWorks的離線同步任務通過調度資源組將其下發到數據集成任務執行資源組上執行,所以離線同步任務除了涉及數據集成任務執行資源組外,還會占用調度資源組資源。如果使用了獨享調度資源組,將會產生調度實例費用。您可通過任務下發機制對該機制進行了解。
步驟七:執行同步任務
進入 界面,找到已創建的同步方案。
單擊操作列的啟動/提交執行按鈕,啟動同步的運行。
單擊操作列的執行詳情,查看任務的詳細執行過程。
后續步驟
完成任務配置后,您可以對已創建的任務進行管理、執行加減表操作,或對任務配置監控報警,并查看任務運行的關鍵指標等。詳情請參見:全增量同步任務運維。