數(shù)據(jù)準(zhǔn)備快速入門
數(shù)據(jù)準(zhǔn)備(輕量ETL)可以將數(shù)據(jù)源表或者數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行清洗、聚合、關(guān)聯(lián)和合并等操作,并將加工后的數(shù)據(jù)輸出,讓不會(huì)寫SQL代碼的業(yè)務(wù)人員能夠低成本完成BI可視化數(shù)據(jù)的準(zhǔn)備。
常規(guī)流程為在數(shù)據(jù)源模塊建立數(shù)據(jù)庫(kù)連接后,開(kāi)發(fā)者將數(shù)據(jù)源表或者數(shù)據(jù)集作為輸入,在數(shù)據(jù)集模塊進(jìn)行建模,并基于數(shù)據(jù)集深度分析與展示數(shù)據(jù)。在實(shí)際應(yīng)用時(shí),從數(shù)據(jù)源表到數(shù)據(jù)集環(huán)節(jié),需要對(duì)數(shù)據(jù)源表進(jìn)行額外的加工處理(例如,對(duì)數(shù)據(jù)進(jìn)行合并、聚合等操作)。因此,Quick BI引入數(shù)據(jù)準(zhǔn)備模塊,通過(guò)輕量ETL對(duì)數(shù)據(jù)源表或者數(shù)據(jù)集進(jìn)行清洗加工處理,加工之后的數(shù)據(jù)重新寫回到數(shù)據(jù)源表或者數(shù)據(jù)集中,再進(jìn)行數(shù)據(jù)建模和數(shù)據(jù)深度分析。
您可以按照以下步驟完成快速入門。
使用限制
開(kāi)發(fā)者賬號(hào)支持使用輕量ETL。
擁有目標(biāo)數(shù)據(jù)庫(kù)的讀寫權(quán)限。請(qǐng)參見(jiàn)數(shù)據(jù)源功能項(xiàng)列表,查看支持使用數(shù)據(jù)準(zhǔn)備功能的數(shù)據(jù)源。
使用ETL需要擁有相應(yīng)數(shù)據(jù)集或數(shù)據(jù)源的權(quán)限:
輸入節(jié)點(diǎn):
數(shù)據(jù)集:必須有數(shù)據(jù)集使用權(quán)限。
數(shù)據(jù)源表:必須有數(shù)據(jù)源使用權(quán)限。
輸出節(jié)點(diǎn):
數(shù)據(jù)集:必須有數(shù)據(jù)集新建(編輯)權(quán)限。
數(shù)據(jù)源表:必須有數(shù)據(jù)源使用權(quán)限。
僅專業(yè)版群空間支持使用輕量ETL。
專業(yè)版正式客戶ETL任務(wù)數(shù):可以發(fā)布10個(gè)任務(wù)。
ETL試用用戶可以發(fā)布3個(gè)任務(wù),包括試用專業(yè)版的用戶和高級(jí)版試用ETL模塊的客戶。
節(jié)點(diǎn)字段支持全量展示,最多可勾選200個(gè)字段。
ETL輸入節(jié)點(diǎn)最大輸入數(shù)據(jù)1000萬(wàn)行。
功能入口
在Quick BI產(chǎn)品首頁(yè),通過(guò)以下入口,新建數(shù)據(jù)準(zhǔn)備。
入口一:工作臺(tái)->選擇工作空間->單擊數(shù)據(jù)準(zhǔn)備->單擊新建數(shù)據(jù)準(zhǔn)備。
入口二:工作臺(tái)->選擇工作空間->單擊數(shù)據(jù)準(zhǔn)備右邊的圖標(biāo),快速創(chuàng)建數(shù)據(jù)準(zhǔn)備。
入口三:工作臺(tái)->選擇工作空間->單擊數(shù)據(jù)集->選擇目標(biāo)數(shù)據(jù)集并單擊數(shù)據(jù)集右邊的圖標(biāo)->單擊新建數(shù)據(jù)準(zhǔn)備。
入口四:工作臺(tái)->選擇工作空間->單擊數(shù)據(jù)源->選擇目標(biāo)數(shù)據(jù)源->選擇目標(biāo)數(shù)據(jù)表標(biāo)并單擊圖標(biāo)新建數(shù)據(jù)準(zhǔn)備。
進(jìn)入數(shù)據(jù)編輯頁(yè)面。
輸入數(shù)據(jù)
支持從目標(biāo)數(shù)據(jù)源中獲取數(shù)據(jù)表或者使用有權(quán)限的數(shù)據(jù)集,作為輸入數(shù)據(jù)。
在數(shù)據(jù)準(zhǔn)備編輯頁(yè)面,從左側(cè)的節(jié)點(diǎn)操作區(qū),拖拽數(shù)據(jù)輸入至畫布區(qū),進(jìn)行數(shù)據(jù)流構(gòu)建。
配置節(jié)點(diǎn)
輸入類型為數(shù)據(jù)源表
選擇輸入類型為數(shù)據(jù)源表。
選擇數(shù)據(jù)源。
請(qǐng)參見(jiàn)數(shù)據(jù)源功能項(xiàng)列表,查看支持使用數(shù)據(jù)準(zhǔn)備功能的數(shù)據(jù)源。
校驗(yàn)連通性。
若您選擇數(shù)據(jù)源后,出現(xiàn)自動(dòng)連接失敗,請(qǐng)手動(dòng)點(diǎn)擊校驗(yàn)提示,則單擊校驗(yàn)連通性。
說(shuō)明為確保數(shù)據(jù)源的順利連接,請(qǐng)將106.15.233.0/24添加至您的數(shù)據(jù)庫(kù)白名單。
選擇數(shù)據(jù)表。
此時(shí)您可以在頁(yè)面右側(cè)看到該數(shù)據(jù)表中的所有字段。
勾選目標(biāo)字段作為數(shù)據(jù)輸入。
輸入類型為數(shù)據(jù)集
選擇輸入類型類數(shù)據(jù)集。
選擇數(shù)據(jù)集。
說(shuō)明輸入數(shù)據(jù)集仍依賴底層數(shù)據(jù)源,需要對(duì)應(yīng)數(shù)據(jù)源類型支持?jǐn)?shù)據(jù)準(zhǔn)備。
校驗(yàn)連通性。
勾選目標(biāo)字段作為數(shù)據(jù)輸入。
重復(fù)上述步驟,可以配置多個(gè)數(shù)據(jù)輸入節(jié)點(diǎn)。
配置多個(gè)數(shù)據(jù)輸入節(jié)點(diǎn)時(shí),選擇數(shù)據(jù)源可以是同一個(gè)數(shù)據(jù)庫(kù),也可以是不同數(shù)據(jù)庫(kù)。
最多支持添加5個(gè)數(shù)據(jù)輸入節(jié)點(diǎn)。
本例中,以添加兩個(gè)數(shù)據(jù)輸入節(jié)點(diǎn)為例介紹。
數(shù)據(jù)輸入1的配置示例如下。
數(shù)據(jù)輸入2的配置示例如下。
連接節(jié)點(diǎn)
將輸入的數(shù)據(jù)進(jìn)行清洗加工 ,故需要將輸入節(jié)點(diǎn)、數(shù)據(jù)加工節(jié)點(diǎn)等連接起來(lái),形成任務(wù)流。
本例中,將分布在兩個(gè)數(shù)據(jù)庫(kù)的訂單合并,并進(jìn)行清洗加工、聚合等操作。
合并輸入數(shù)據(jù)節(jié)點(diǎn)。
合并節(jié)點(diǎn)用于將數(shù)據(jù)輸入1節(jié)點(diǎn)和數(shù)據(jù)輸入2節(jié)點(diǎn)中,名稱相同的字段進(jìn)行合并。
從左側(cè)的節(jié)點(diǎn)操作區(qū),拖拽合并至畫布區(qū)。
連接需要合并的節(jié)點(diǎn)。
配置合并節(jié)點(diǎn)并查看合并結(jié)果。
此時(shí)合并節(jié)點(diǎn)中的字段為數(shù)據(jù)輸入1和數(shù)據(jù)輸入2中,名稱相同的字段。
清洗加工合并后的數(shù)據(jù)。
從左側(cè)的節(jié)點(diǎn)操作區(qū),拖拽清洗加工至畫布區(qū)。
連接需要清洗加工的節(jié)點(diǎn)。
在清洗加工節(jié)點(diǎn)配置區(qū)域,按照下圖指引,配置字段篩選。
按照下圖指引,新增字段,支持新增計(jì)算字段、分組賦值和窗口函數(shù)。
聚合清洗加工后的數(shù)據(jù)。
從左側(cè)的節(jié)點(diǎn)操作區(qū),拖拽聚合至畫布區(qū)。
連接需要聚合節(jié)點(diǎn)。
在聚合節(jié)點(diǎn)配置區(qū)域,按照下圖指引,配置分組字段和匯總字段。
輸出數(shù)據(jù)
輸出數(shù)據(jù)時(shí),支持輸出至已有的目標(biāo)數(shù)據(jù)庫(kù)表或新建的數(shù)據(jù)庫(kù)表中,也支持輸出至數(shù)據(jù)集中。
分區(qū)表:每次寫入會(huì)刪除表中原有數(shù)據(jù),并插入新數(shù)據(jù)。
非分區(qū)表:
覆蓋數(shù)據(jù):每次寫入會(huì)覆蓋之前的數(shù)據(jù)。
追加數(shù)據(jù):主鍵/約束不沖突時(shí),插入數(shù)據(jù);主鍵/約束沖突時(shí),則會(huì)報(bào)錯(cuò)。
從左側(cè)的節(jié)點(diǎn)操作區(qū),拖拽數(shù)據(jù)輸出至畫布區(qū)。
連接需要導(dǎo)出數(shù)據(jù)的節(jié)點(diǎn)。
在數(shù)據(jù)輸出節(jié)點(diǎn)配置區(qū)域,按照下圖指引,配置輸出的數(shù)據(jù)。
輸出類型為數(shù)據(jù)源表。
輸出類型為數(shù)據(jù)集。
輸出數(shù)據(jù)配置完成后,您需要運(yùn)行才可以在數(shù)據(jù)庫(kù)表或者數(shù)據(jù)集中寫入數(shù)據(jù)。您可以手動(dòng)觸發(fā)運(yùn)行,也可以定期自動(dòng)運(yùn)行,周期性的更新數(shù)據(jù)庫(kù)表。詳情請(qǐng)參見(jiàn)任務(wù)運(yùn)行配置。
輸出類型為數(shù)據(jù)集時(shí),需要組織管理員在空間信息中進(jìn)行設(shè)置,具體請(qǐng)參見(jiàn)新建并管理工作空間。
保存并發(fā)布文件
配置完成后,您可以單擊保存或保存并發(fā)布,保存當(dāng)前數(shù)據(jù)準(zhǔn)備。
①保存
保存功能僅保存當(dāng)前操作。
如果僅保存數(shù)據(jù)準(zhǔn)備,則該數(shù)據(jù)準(zhǔn)備的更新點(diǎn)對(duì)用戶不可見(jiàn):
當(dāng)新增數(shù)據(jù)準(zhǔn)備時(shí),保存后該數(shù)據(jù)準(zhǔn)備的狀態(tài)為未發(fā)布,通過(guò)保存并發(fā)布發(fā)布數(shù)據(jù)準(zhǔn)備。
當(dāng)更新已發(fā)布數(shù)據(jù)準(zhǔn)備時(shí),通過(guò)重新發(fā)布將該更新點(diǎn)發(fā)布出去。
②保存并發(fā)布
保存并發(fā)布功能可以保存當(dāng)前操作并發(fā)布該數(shù)據(jù)準(zhǔn)備。該功能僅對(duì)未發(fā)布數(shù)據(jù)準(zhǔn)備可見(jiàn)。