同步數據到RDS
準備工作
1.準備RDS實例和表結構使用RDS管控臺新建RDS實例,可選擇經典網絡和VPC網絡,同樣,創建DataHub同步任務時,請選擇正確的網絡類型。DataHub同步時,會根據DataHub Field的數據類型同步到對應的RDS數據類型中,對應的類型映射關系如下所示:
DataHub | RDS |
TINYINT | TINYINT |
SMALLINT | SMALLINT |
INTEGER | INT |
BIGINT | BIGINT |
STRING | VARCHAR |
BOOLEAN | BOOLEAN / TINYINT |
FLOAT | FLOAT |
DOUBLE | DOUBLE |
TIMESTAMP | TIMESTAMP / BIGINT |
DECIMAL | DECIMAL |
DataHub 中的 TINYINT , SMALLINT , INTEGER , FLOAT 類型從 java sdk 2.16.1-public 開始支持。2.RDS白名單和內網地址用戶使用DataHub同步功能時,需要在RDS管控臺中配置IP白名單以便DataHub服務訪問用戶RDS服務,DataHub服務對應的IP白名單地址域參考IP白名單同樣,在創建DataHub同步任務時,用戶需要填寫RDS內網地址以確保網絡連通性。3.同步說明1)目前DataHub僅支持將TUPLE數據同步到RDS服務中2)DataHub中的TIMESTAMP默認按照微秒(Microsecond)
時間轉換成RDS TIMESTAMP類型,請用戶注意控制數據精度3)為了避免并發讀寫同一個主鍵數據出現加鎖競爭,請用戶確保同一主鍵的數據寫入到DataHub同一Shard中4)使用VPC網絡時,請確保DataHub Topic和RDS實例在同一個Region
創建同步任務
依次進入
項目列表/Project詳情/Topic詳情
頁面點擊右上角的
+ 同步
按鈕進行同步任務創建
下面羅列了部分管控臺創建同步任務的配置說明,更多更靈活的操作請參考SDK使用。
HostRDS服務地址,請務必填寫
內網地址
以確保服務聯通性導入字段DataHub可以根據用戶設置將部分column內容同步到RDS表中
寫入模式包括IGNORE和OVERWRITE兩種模式
IGNORE: 忽略重復數據,即
INSERT IGNORE INTO
寫入OVERWRITE: 更新重復數據,即
REPLACE INTO
寫入
VpcId和實例ID當用戶的RDS處于VPC網絡時,需要填寫對應的VpcId信息和RDS實例信息
同步示例
創建RDS實例和表結構在RDS管控臺中創建RDS實例和數據表,如下圖所示:
建立DataHub Topic在DataHub中建立Topic,示例中為TUPLE類型topic,schema如下圖所示:
建立同步任務這里寫入模式選擇IGNORE,導入所有字段
向DataHub中寫入TUPLE數據,數據內容如下圖所示,共4條數據
確認同步數據這里采用MySQL客戶端連接RDS服務查看數據,數據結果如下圖所示:
同步數據到MySQL
準備工作
1.準備MySQL實例和表結構使用MySQL管控臺新建MySQL實例
DataHub同步時,會根據DataHub Field的數據類型同步到對應的MySQL數據類型中,對應的類型映射關系如下所示:
DataHub | MySQL |
TINYINT | TINYINT |
SMALLINT | SMALLINT |
INTEGER | INT |
BIGINT | BIGINT |
STRING | VARCHAR |
BOOLEAN | BOOLEAN / TINYINT |
FLOAT | FLOAT |
DOUBLE | DOUBLE |
TIMESTAMP | TIMESTAMP / BIGINT |
DECIMAL | DECIMAL |
DataHub 中的 TINYINT , SMALLINT , INTEGER , FLOAT 類型從 java sdk 2.16.1-public 開始支持。
2.同步說明1)目前DataHub僅支持將TUPLE數據同步到MySQL服務中2)DataHub中的TIMESTAMP默認按照微秒(Microsecond)
時間轉換成MySQL TIMESTAMP類型,請用戶注意控制數據精度3)為了避免并發讀寫同一個主鍵數據出現加鎖競爭,請用戶確保同一主鍵的數據寫入到DataHub同一Shard中
創建同步任務
依次進入
項目列表/Project詳情/Topic詳情
頁面點擊右上角的
+ 同步
按鈕進行同步任務創建
下面羅列了部分管控臺創建同步任務的配置說明,更多更靈活的操作請參考SDK使用。
HostMySQL服務地址,請務必填寫
內網地址
以確保服務聯通性導入字段DataHub可以根據用戶設置將部分column內容同步到MySQL表中
寫入模式包括IGNORE和OVERWRITE兩種模式
IGNORE: 忽略重復數據,即
INSERT IGNORE INTO
寫入OVERWRITE: 更新重復數據,即
REPLACE INTO
寫入
同步示例
創建MySQL實例和表結構在MySQL管控臺中創建MySQL實例和數據表
建立DataHub Topic在DataHub中建立Topic,示例中為TUPLE類型topic,schema如下圖所示:
建立同步任務這里寫入模式選擇IGNORE,導入所有字段
向DataHub中寫入TUPLE數據,數據內容如下圖所示,共4條數據
確認同步數據這里采用MySQL客戶端連接MySQL服務查看數據,數據結果如下圖所示:
同步數據到ADS3.0
準備工作
1.準備ADS實例和表結構使用ADS管控臺新建ADS實例,可選擇經典網絡和VPC網絡,同樣,創建DataHub同步任務時,請選擇正確的網絡類型。DataHub同步時,會根據DataHub Field的數據類型同步到對應的ADS數據類型中,對應的類型映射關系如下所示:
DataHub | ADS |
TINYINT | TINYINT |
SMALLINT | SMALLINT |
INTEGER | INT |
BIGINT | BIGINT |
STRING | VARCHAR |
BOOLEAN | BOOLEAN / TINYINT |
FLOAT | FLOAT |
DOUBLE | DOUBLE |
TIMESTAMP | TIMESTAMP / BIGINT |
DECIMAL | DECIMAL |
DataHub 中的 TINYINT , SMALLINT , INTEGER , FLOAT 類型從 java sdk 2.16.1-public 開始支持。2.ADS白名單和內網地址用戶使用DataHub同步功能時,需要在RDS管控臺中配置IP白名單以便DataHub服務訪問用戶ADS服務,DataHub服務對應的IP白名單地址域參考 IP白名單地址同樣,在創建DataHub同步任務時,用戶需要填寫ADS內網地址以確保網絡連通性。3.同步說明1)目前DataHub僅支持將TUPLE數據同步到ADS服務中2)DataHub中的TIMESTAMP默認按照微秒(Microsecond)
時間轉換成ADS TIMESTAMP類型,請用戶注意控制數據精度3)為了避免并發讀寫同一個主鍵數據出現加鎖競爭,請用戶確保同一主鍵的數據寫入到DataHub同一Shard中4)使用VPC網絡時,請確保DataHub Topic和ADS實例在同一個Region
創建同步任務
依次進入
項目列表/Project詳情/Topic詳情
頁面點擊右上角的
+ 同步
按鈕進行同步任務創建
下面羅列了部分管控臺創建同步任務的配置說明,更多更靈活的操作請參考SDK使用。
HostRDS服務地址,請務必填寫
內網地址
以確保服務聯通性導入字段DataHub可以根據用戶設置將部分column內容同步到RDS表中
寫入模式包括IGNORE和OVERWRITE兩種模式
IGNORE: 忽略重復數據,即
INSERT IGNORE INTO
寫入OVERWRITE: 更新重復數據,即
REPLACE INTO
寫入
VpcId和實例ID,如圖所示:
注意:填入實例ID時需要注意加上-controller
,例如上圖所示集群ID為am-bp10732mzu7wd78x9,
則實例ID填寫am-bp10732mzu7wd78x9-controller
同步示例
創建ADS實例和表結構
建立DataHub Topic在DataHub中建立Topic,示例中為TUPLE類型topic,schema如下圖所示:
建立同步任務這里寫入模式選擇IGNORE,導入所有字段
向DataHub中寫入TUPLE數據,數據內容如下圖所示,共4條數據
確認同步數據這里采用MySQL客戶端連接ADS服務查看數據,數據結果如下圖所示: