大數據計算服務MaxCompute(原名ODPS)為您提供完善的數據導入方案,能夠快速解決海量數據的計算問題。
前提條件
配置MaxCompute輸出節點前,您需要先配置好相應的輸入或轉換數據源,詳情請參見實時同步能力說明。
背景信息
寫入數據不支持去重,即如果任務重置位點或者Failover后再啟動,會導致有重復數據寫入。
操作步驟
進入數據開發頁面。
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的 ,在下拉框中選擇對應工作空間后單擊進入數據開發。
鼠標懸停至圖標,單擊 。
您也可以展開業務流程,右鍵單擊目標業務流程,選擇
。在新建節點對話框中,選擇同步方式為單表(Topic)到單表(Topic)ETL,輸入名稱,并選擇路徑。
重要節點名稱必須是大小寫字母、中文、數字、下劃線(_)以及英文句號(.),且不能超過128個字符。
單擊確認。
在實時同步節點的編輯頁面,單擊 并拖拽至編輯面板,連線已配置好的輸入或轉換節點。
單擊MaxCompute節點,在節點配置對話框中,配置各項參數。
參數
描述
數據源
選擇已經配置好的MaxCompute數據源,此處僅支持MaxCompute數據源。
如果您未配置數據源,請單擊右側的新建數據源,進入配置MaxCompute數據源。
頁面新建,詳情請參見Tunnel資源組
即 Tunnel Quota,l默認選擇公共傳輸資源,即MC的免費quota。
MaxCompute的數據傳輸資源選擇,具體請購買與使用獨享數據傳輸服務資源組。
說明如果獨享tunnel quota因欠費或到期不可用,任務在運行中將會自動切換為“公共傳輸資源”。
schema
選擇MaxCompute下已創建的schema。
表
選擇當前數據源下需要同步的表名稱。
您可以單擊右側的一鍵建表創建新表,也可以單擊數據預覽進行確認。
說明新建目標數據表前,請先連線輸入節點,并確認有輸出字段。
分區訊息
為您展示MaxCompute分區表的信息。
分區方式
包括時間自動分區及根據字段內容動態分區。其中時間自動分區是根據_execute_time_字段進行分區的,詳情請參見實時同步字段格式。根據字段內容動態分區通過指定源端表某字段與目標MaxCompute表分區字段對應關系,實現源端對應字段所在數據行寫入到MaxCompute表對應的分區中。
字段映射
單擊字段映射,設置源端和目標端字段的映射。同步任務會根據字段的映射關系同步數據。
如果您需要新建表,請單擊一鍵建表后,在新建數據表對話框中,配置各項參數。
參數
描述
表名稱
實時同步寫入的MaxCompute表的名稱。
生命周期
實時同步寫入的MaxCompute表的生命周期長度,詳情請參見生命周期。
數據字段結構
實時同步寫入的MaxCompute表的字段結構。如果您需要新增字段,請單擊添加。
分區設置
實時同步寫入的MaxCompute表的分區信息。 實時同步寫入MCompute表支持時間自動分區與根據字段內容動態分區兩種分區方式
時間自動分區:根據_execute_time_字段將數據寫入到對應時間分區中,詳情請參見實時同步字段格式,
重要您最少需要設置二級分區(月和年),最多支持設置五級分區(分鐘、小時、天、月和年)。
關于MaxCompute表的介紹可參考文檔:分區
根據字段內容動態分區:通過指定源端表某字段與目標MaxCompute表分區字段對應關系,實現源端對應字段所在數據行寫入到MaxCompute表對應的分區中。例如:配置MaxCompute表分區字段值來源為源端字段A,當A字段值為aa時,實時同步會將數據寫入到MaxCompute表對應的aa分區中,當A字段值為bb時,實時同步會將數據寫入到MaxCompute表對應的bb分區中。
單擊工具欄中的圖標。