數據集成
數據集成是基于Dataphin構建的簡單高效的數據同步平臺,致力于提供強大的數據預處理能力和豐富的異構數據源之間數據高速穩定的同步能力。
背景信息
面對各行各業對大數據的應用,數據集成會有很多的訴求,包括能夠簡單高效地配置大量數據表的同步任務、能夠集成多種異構數據源、能夠實現對數據源的數據進行輕度預處理、能夠實現數據同步任務的調優(例如容錯、限速、并發)等。
功能概述
如果您是在2020年4月份之后購買的Dataphin,則數據同步能力已升級為數據集成。
Dataphin升級了數據集成的能力,旨在為您構建簡單高效、安全可靠的數據同步平臺:
支持通過整庫遷移(快速生成批量同步任務)和一鍵生成目標表(同步到MaxCompute的數據無需手動建表)的方式,提高數據集成的效率,詳情請參見通過整庫遷移配置集成任務。
支持流程和轉換組件,實現數據源的數據預處理(例如清洗、轉換、字段脫敏、計算、合并、分發、過濾等)能力,詳情請參見通過單條管道創建集成任務。
支持Dev-Prod和Basic的開發模式,您可以根據業務場景靈活選擇開發模式。
支持將Dataphin中創建的邏輯表快速地同步到目標庫。
支持用戶自定義系統不支持的組件,以滿足不同業務場景數據同步的需求。RDBMS數據庫組件通過JDBC鏈接,非RDBMS數據庫組件需要自行上傳JAR包。
數據集成支持多種類型組件,通過簡單的拖拽、配置并組裝組件的方式,生成離線單條管道。數據集成支持快速生成批量同步任務。整庫遷移來源端支持MySQL、SQL Server、Oracle,目標端支持 MaxCompute。同時,數據集成支持用戶自定義系統不支持的組件類型,以滿足數據同步的需求。
數據集成入口
快捷入口(推薦)
在Dataphin首頁,單擊Dataphin產品使用路徑的數據引入,快速進入數據集成。
普通入口
在Dataphin首頁,在頂部菜單欄選擇研發 > 數據集成,進入數據集成頁面。
連通數據源與Dataphin間的網絡
進行數據同步時,需要連通數據源與Dataphin項目空間間的網絡。如何連通數據源與Dataphin間的網絡,請參見網絡連通解決方案。
適用場景說明
場景 | 描述 | 操作指導 |
通過管道腳本構建同步任務 | 基于已有的管道腳本開發管道任務,實現數據同步。 |
|
通過離線單條管道構建同步任務 | 離線的數據管道通過定義數據來源和去向的數據源和數據集,提供一套抽象化的數據輸入組件、數據輸出組件及流程和轉換組件,并基于此框架設計一套簡化版的中間數據傳輸格式,從而實現數據源之間數據傳輸。 |
|
通過離線整庫遷移構建同步任務 | 整庫遷移是為了提升用戶效率、降低用戶使用成本的一種快捷工具,它可以快速把MySQL、Oracle、SQL Server數據庫內所有表一并上傳至MaxCompute,極大減少您初始化上云的配置、遷移成本。 |
|
通過自定義組件構建同步任務 | 數據集成支持用戶自定義系統不支持的組件,以滿足不同業務場景數據同步的需求。 |
|