準備工作
1.準備OSS BucketDataHub支持將數據同步到對象存儲OSS中,在創建同步任務前,用戶首先需要在OSS管控臺創建OSS Bucket,作為DataHub數據同步的目標Bucket。2.服務關聯角色授權用戶配置同步任務時,賬號可以選擇使用AccessId/AccessKey
靜態云賬號或者STS
臨時賬號的方式進行數據同步。當選擇STS臨時賬號方式時,將會自動創建DataHub服務關聯角色,DataHub服務會使用此角色訪問OSS以完成數據同步
3.同步說明1)目前DataHub支持將TUPLE和BLOB數據同步到OSS中
TUPLE: 采用csv數據格式,每個Record中的column數據以逗號分隔,Record之間采用
換行符'\n'
分隔BLOB: 采用Append方式進行數據追加,如果用戶需要拆分OSS數據,用戶需要自己往DataHub中寫入數據分隔符
2)文件格式同步到OSS中的文件名稱采用ConnectorId
等有含義信息拼接而成,暫時不支持用戶修改3)二級目錄DataHub同步會根據數據寫入DataHub的時間來生成二級目錄,默認Asia/Shanghai
時區,更多配置可參考SDK方式創建。
創建同步任務
依次進入
項目列表/Project詳情/Topic詳情
頁面點擊右上角的
+ 同步
按鈕進行同步任務創建
下面羅列了部分管控臺創建同步任務的配置說明,更多更靈活的操作請參考SDK使用。
EndpointOSS服務地址,請使用經典網絡域名,內部網絡僅支持http,暫不支持HTTPS
導入字段DataHub可以根據用戶設置將部分column內容同步到OSS文件中
目錄前綴數據同步到OSS Bucket下面的目錄名稱
時間格式和時間間隔DataHub會根據數據寫入DataHub的時間來決定寫入到上述目錄前綴的二級目錄名稱時間間隔表示二級目錄的數據時間范圍,默認[15min ~ 1440min(1day)]
同步示例
創建OSS Bucket在OSS管控臺中創建同步Bucket,如下圖所示:
建立DataHub Topic在DataHub中建立Topic,示例中為TUPLE類型topic,schema如下圖所示:
建立同步任務
向DataHub中寫入TUPLE數據,數據內容如下圖所示
確認同步數據同步文件在OSS中的命名格式如下圖所示:包含Bucket、目錄前綴、二級目錄以及文件名等下載該文件,并查看文件內容,TUPLE同步文件內容為csv數據格式,如下圖所示: