快速入門
步驟一:開(kāi)通DataHub服務(wù)
根據(jù)頁(yè)面提示開(kāi)通服務(wù)。
步驟二:創(chuàng)建Project和Topic
單機(jī)新建項(xiàng)目按鈕 后填寫(xiě)相關(guān)信息進(jìn)行創(chuàng)建。
參數(shù) | 描述 |
Project | 項(xiàng)目(Project)是DataHub數(shù)據(jù)的基本組織單元,下面包含多個(gè)Topic。值得注意的是,DataHub的項(xiàng)目空間與MaxCompute的項(xiàng)目空間是相互獨(dú)立的。用戶在MaxCompute中創(chuàng)建的項(xiàng)目不能復(fù)用于DataHub,需要獨(dú)立創(chuàng)建。 |
描述 | Project的描述信息 |
3 . 點(diǎn)擊Project詳情頁(yè)面中的創(chuàng)建Topic按鈕,進(jìn)行Topic的創(chuàng)建。
參數(shù) | 描述 |
創(chuàng)建方式 | 項(xiàng)目(Project)是DataHub數(shù)據(jù)的基本組織單元,下面包含多個(gè)Topic。值得注意的是,DataHub的項(xiàng)目空間與MaxCompute的項(xiàng)目空間是相互獨(dú)立的。用戶在MaxCompute中創(chuàng)建的項(xiàng)目不能復(fù)用于DataHub,需要獨(dú)立創(chuàng)建。 |
名稱 | Topic的描述信息 |
類型 | Topic類型,TUPLE代表結(jié)構(gòu)化數(shù)據(jù),BLOB代表非結(jié)構(gòu)化數(shù)據(jù)。 |
Schema詳情 | 選擇TUPLE類型會(huì)出現(xiàn)Schema詳情,根據(jù)自己需求創(chuàng)建字段,允許為NULL代表如果上游沒(méi)有該字段值自動(dòng)置為NULL,不允許為NULL則會(huì)嚴(yán)格檢驗(yàn),字段類型不匹配寫(xiě)入報(bào)錯(cuò)。 |
Shard數(shù)量 | Shard表示對(duì)一個(gè)Topic進(jìn)行數(shù)據(jù)傳輸?shù)牟l(fā)通道,每個(gè)Shard會(huì)有對(duì)應(yīng)的ID。每個(gè)Shard會(huì)有多種狀態(tài) : Opening - 啟動(dòng)中,Active - 啟動(dòng)完成可服務(wù)。每個(gè)Shard啟用以后會(huì)占用一定的服務(wù)端資源,建議按需申請(qǐng)Shard數(shù)量。 |
生命周期 | Topic中寫(xiě)入數(shù)據(jù)在系統(tǒng)中可以保存的最長(zhǎng)時(shí)間,以天為單位,最小值為1,最大值為7,修改生命周期需要使用 JAVA SDK updateTopic方法。 |
描述 | Topic的描述信息 |
步驟三:寫(xiě)入數(shù)據(jù)
DataHub支持多種寫(xiě)入方式,針對(duì)日志可以選擇Flume等多種插件,針對(duì)數(shù)據(jù)庫(kù)可以選擇DTS、canal,也可以通過(guò)SDK寫(xiě)入,在這里使用console工具上傳文件的方式寫(xiě)入數(shù)據(jù)。
下載并解壓console工具包,配置ak和endpoint 信息console使用指南。
使用uf命令上傳文件。
uf -f /temp/test.csv -p test_topic -t test_topic -m "," -n 1000
Web頁(yè)面查看數(shù)據(jù)是否寫(xiě)入成功,根據(jù)最新數(shù)據(jù)寫(xiě)入時(shí)間和數(shù)據(jù)總量查看數(shù)據(jù)寫(xiě)入情況。
數(shù)據(jù)抽樣,檢查數(shù)據(jù)質(zhì)量。
選擇抽樣shard以及抽樣起始時(shí)間。
點(diǎn)擊抽樣,即可查看數(shù)據(jù)。
步驟四:同步數(shù)據(jù)
以同步MaxCompute為例。
依次進(jìn)入
項(xiàng)目列表/Project詳情/Topic詳情
頁(yè)面。點(diǎn)擊右上角的
+ 同步
按鈕進(jìn)行同步任務(wù)創(chuàng)建。選擇MaxCompute類型作業(yè),如下圖所示:
1)TUPLE類型同步
部分配置說(shuō)明:
下面羅列了部分管控臺(tái)創(chuàng)建同步任務(wù)的配置說(shuō)明,更多更靈活的操作請(qǐng)參考SDK使用。
導(dǎo)入字段
DataHub可以根據(jù)用戶設(shè)置將部分column內(nèi)容同步到MaxCompute表中。
分區(qū)模式
分區(qū)模式?jīng)Q定了將數(shù)據(jù)寫(xiě)入到MaxCompute哪個(gè)分區(qū)中,目前DataHub支持以下分區(qū)方式:
分區(qū)模式 | 分區(qū)依據(jù) | 支持Topic類型 | 說(shuō)明 |
USER_DEFINE | Record中的分區(qū)列(和MaxCompute的分區(qū)字段同名)的value值 | TUPLE | (1). DataHub schema中必須包含MaxCompute分區(qū)字段 (2). 該列值必須為 |
SYSTEM_TIME | Record寫(xiě)入DataHub的時(shí)間 | TUPLE / BLOB | (1). 分區(qū)配置中設(shè)置MaxCompute分區(qū)的時(shí)間轉(zhuǎn)換Format格式 (2). 設(shè)置時(shí)區(qū)信息 |
EVENT_TIME | Record中的 | TUPLE | (1). 分區(qū)配置中設(shè)置MaxCompute分區(qū)的時(shí)間轉(zhuǎn)換Format格式 (2). 設(shè)置時(shí)區(qū)信息 |
META_TIME | Record的屬性字段 | TUPLE / BLOB | (1). 分區(qū)配置中設(shè)置MaxCompute分區(qū)的時(shí)間轉(zhuǎn)換Format格式 (2). 設(shè)置時(shí)區(qū)信息 |
其中SYSTEM_TIME
、EVENT_TIME
和META_TIME
均是根據(jù)時(shí)間Timestamp和時(shí)區(qū)配置來(lái)進(jìn)行MaxCompute分區(qū)的轉(zhuǎn)換過(guò)程,單位默認(rèn)為微秒。
分區(qū)配置決定了根據(jù)時(shí)間戳轉(zhuǎn)換MaxCompute分區(qū)時(shí)的相關(guān)配置。目前管控臺(tái)默認(rèn)固定的MaxCompute分區(qū)格式,分區(qū)配置對(duì)應(yīng)為:
分區(qū) | 時(shí)間Format | 說(shuō)明 |
ds | %Y%m%d | day |
hh | %H | hour |
mm | %M | minute |
分區(qū)間隔決定了根據(jù)時(shí)間戳轉(zhuǎn)換MaxCompute分區(qū)時(shí)所采用的時(shí)間間隔。時(shí)間范圍是
15分鐘 ~ 1440分鐘(1天)
,跳變間隔15分鐘
。時(shí)區(qū)信息(TimeZone)時(shí)區(qū)信息決定了根據(jù)時(shí)間戳轉(zhuǎn)換MaxCompute分區(qū)時(shí)所采用的轉(zhuǎn)換時(shí)區(qū)。
分隔符BLOB數(shù)據(jù)同步時(shí),可以指定16進(jìn)制分隔符來(lái)決定是否對(duì)BLOB數(shù)據(jù)分割后再同步MaxCompute,比如
0A
表示\n(換行符)
Base64編碼DataHub BLOB默認(rèn)存儲(chǔ)二進(jìn)制數(shù)據(jù),而MaxCompute對(duì)應(yīng)的同步列為STRING類型,因此管控臺(tái)創(chuàng)建同步任務(wù)時(shí),默認(rèn)采用base64編碼后進(jìn)行同步,更多定制化需求請(qǐng)參考SDK實(shí)現(xiàn)。
步驟六:查看同步任務(wù)
可以點(diǎn)擊對(duì)應(yīng)connector的詳情頁(yè)面查看同步任務(wù)的運(yùn)行狀態(tài)和點(diǎn)位等信息, 包含同步點(diǎn)位、同步狀態(tài)以及重啟和停止等操作,如下圖所示:
詳情請(qǐng)參看同步MaxCompute。