DataWorks on EMR Serverless StarRocks最佳實(shí)踐
DataWorks支持StarRocks數(shù)據(jù)源,通過數(shù)據(jù)源對(duì)接EMR Serverless StarRocks,可實(shí)現(xiàn)EMR Serverless StarRocks的數(shù)據(jù)集成、開發(fā)、分析、數(shù)據(jù)服務(wù)等功能。本文為您介紹EMR Serverless StarRocks在DataWorks上的操作流程。
背景信息
了解EMR Serverless StarRocks
StarRocks是新一代極速全場(chǎng)景MPP(Massively Parallel Processing)數(shù)據(jù)庫,致力于構(gòu)建極速和統(tǒng)一分析體驗(yàn)。
EMR Serverless StarRocks是開源StarRocks在阿里云上的全托管服務(wù),您可以通過EMR Serverless StarRocks靈活創(chuàng)建和管理StarRocks實(shí)例以及數(shù)據(jù)。StarRocks作為一款兼容MySQL協(xié)議的OLAP分析引擎,提供了極致的性能和豐富的OLAP場(chǎng)景模型,包括OLAP多維分析、數(shù)據(jù)湖分析、高并發(fā)查詢以及實(shí)時(shí)數(shù)據(jù)分析。
更多關(guān)于StarRocks、EMR Serverless StarRocks的介紹請(qǐng)參見什么是EMR Serverless StarRocks。
也可查找釘釘群號(hào):24010016636,加入EMR Serverless StarRocks交流釘釘群。
了解DataWorks on EMR Serverless StarRocks
DataWorks作為阿里云一站式大數(shù)據(jù)開發(fā)治理平臺(tái),通過數(shù)據(jù)源對(duì)接EMR Serverless StarRocks,可實(shí)現(xiàn)EMR Serverless StarRocks的數(shù)據(jù)集成、作業(yè)周期性調(diào)度,同時(shí)結(jié)合StarRocks引擎在數(shù)據(jù)分析和數(shù)據(jù)服務(wù)上的極速表現(xiàn),全面助力StarRocks在各類業(yè)務(wù)場(chǎng)景上的使用。
使用EMR Serverless StarRocks,涉及的主要DataWorks子產(chǎn)品模塊、主要概念的簡單介紹如下。
基本概念/子產(chǎn)品 | 簡介 | 參考文檔 |
資源組 | 您需要使用DataWorks資源組以滿足各類任務(wù)在DataWorks上運(yùn)行。 |
|
數(shù)據(jù)源 | 您需要?jiǎng)?chuàng)建數(shù)據(jù)源以便在DataWorks上使用該數(shù)據(jù)源。使用EMR Serverless StarRocks時(shí),您需要?jiǎng)?chuàng)建StarRocks類型的數(shù)據(jù)源,以便可通過數(shù)據(jù)源對(duì)接EMR Serverless StarRocks進(jìn)行任務(wù)開發(fā)與運(yùn)行。 | 數(shù)據(jù)源介紹詳情請(qǐng)參見StarRocks數(shù)據(jù)源。 |
數(shù)據(jù)集成 | DataWorks為您提供數(shù)據(jù)集成子模塊,可實(shí)現(xiàn)多種數(shù)據(jù)源間多種同步場(chǎng)景下的數(shù)據(jù)同步。 | 數(shù)據(jù)集成模塊介紹請(qǐng)參見數(shù)據(jù)集成概述。 |
數(shù)據(jù)開發(fā)與運(yùn)維中心 | DataWorks為您提供數(shù)據(jù)開發(fā)與運(yùn)維中心兩個(gè)子模塊,可實(shí)現(xiàn)在數(shù)據(jù)開發(fā)中開發(fā)并調(diào)試任務(wù),完成后將任務(wù)提交發(fā)布至運(yùn)維中心,實(shí)現(xiàn)周期性自動(dòng)運(yùn)行。 |
|
數(shù)據(jù)分析 | DataWorks數(shù)據(jù)分析可幫助您在線洞察分析、編輯和分享數(shù)據(jù)。 | |
數(shù)據(jù)服務(wù) | DataWorks的數(shù)據(jù)服務(wù)功能模塊是靈活輕量、安全穩(wěn)定的數(shù)據(jù)API構(gòu)建平臺(tái),旨在為個(gè)人、團(tuán)隊(duì)與企業(yè)提供全面的數(shù)據(jù)服務(wù)與共享能力,幫助用戶統(tǒng)一管理面向內(nèi)外部的API服務(wù)。 | |
數(shù)據(jù)地圖 | DataWorks的數(shù)據(jù)地圖是在元數(shù)據(jù)基礎(chǔ)上提供的企業(yè)數(shù)據(jù)目錄管理模塊,涵蓋全局?jǐn)?shù)據(jù)檢索、元數(shù)據(jù)詳情查看、數(shù)據(jù)預(yù)覽、數(shù)據(jù)血緣和數(shù)據(jù)類目管理等功能。數(shù)據(jù)地圖可以幫助您更好地查找、理解和使用數(shù)據(jù)。 |
前提條件
已開通DataWorks并創(chuàng)建工作空間。操作詳情請(qǐng)參見開通DataWorks服務(wù)。
已購買資源組并完成資源組的空間綁定、網(wǎng)絡(luò)等配置。詳情請(qǐng)參見資源組管理。
已創(chuàng)建EMR Serverless StarRocks實(shí)例,操作詳情請(qǐng)參見快速使用存算一體版實(shí)例。
說明創(chuàng)建完成StarRocks實(shí)例后,您可以通過在EMR控制臺(tái)查看實(shí)例信息,并通過EMR StarRocks Manager連接實(shí)例查看數(shù)據(jù)庫、表等信息。
已將DataWorks資源組的白名單IP地址添加至EMR Serverless StarRocks實(shí)例的白名單中。
添加EMR Serverless StarRocks實(shí)例白名單的操作入口如下。
創(chuàng)建數(shù)據(jù)源
在DataWorks上使用EMR Serverless StarRocks時(shí),您需要先創(chuàng)建StarRocks類型的數(shù)據(jù)源,對(duì)接已創(chuàng)建的EMR Serverless StarRocks數(shù)據(jù)庫,以便后續(xù)在DataWorks的各個(gè)子模塊中使用EMR Serverless StarRocks。
數(shù)據(jù)源介紹詳情請(qǐng)參見StarRocks數(shù)據(jù)源,數(shù)據(jù)源的創(chuàng)建入口及配置要點(diǎn)如下。
進(jìn)入數(shù)據(jù)源頁面。
登錄DataWorks控制臺(tái),切換至目標(biāo)地域后,單擊左側(cè)導(dǎo)航欄的 ,在下拉框中選擇對(duì)應(yīng)工作空間后單擊進(jìn)入管理中心。
進(jìn)入工作空間管理中心頁面后,單擊左側(cè)導(dǎo)航欄的
,進(jìn)入數(shù)據(jù)源頁面。
單擊新增數(shù)據(jù)源,數(shù)據(jù)源配置要點(diǎn)如下,其他參數(shù)可保持默認(rèn)值。
根據(jù)StarRocks實(shí)例與DataWorks資源組的網(wǎng)絡(luò)連通情況,選擇對(duì)應(yīng)的方式創(chuàng)建數(shù)據(jù)源。具體網(wǎng)絡(luò)連通方案,請(qǐng)參見網(wǎng)絡(luò)連通方案。
內(nèi)網(wǎng)連通
關(guān)鍵參數(shù)
說明
配置模式
選擇阿里云實(shí)例模式。
所屬云賬號(hào)
如果EMR Serverless StarRocks實(shí)例與DataWorks屬于同一賬號(hào),則選擇當(dāng)前阿里云主賬號(hào)。
如果EMR Serverless StarRocks實(shí)例屬于其他阿里云賬號(hào),則選擇其他阿里云主賬號(hào),選擇其他阿里云主賬號(hào)后,還需配置對(duì)方阿里云主賬號(hào)UID和對(duì)方RAM角色,對(duì)方RAM角色配置的更多信息,請(qǐng)參見跨賬號(hào)授權(quán)配置。
地域
選擇EMR Serverless StarRocks實(shí)例所在的地域。
實(shí)例
選擇具體Serverless版的StarRocks實(shí)例。
數(shù)據(jù)庫名稱
待連接使用的數(shù)據(jù)庫名稱。您可以通過EMR StarRocks Manager連接實(shí)例后,在元數(shù)據(jù)管理中查看。
用戶名/密碼
實(shí)例的用戶名和密碼。
創(chuàng)建StarRocks實(shí)例默認(rèn)創(chuàng)建一個(gè)admin用戶,密碼為創(chuàng)建實(shí)例時(shí)自定義的密碼。
連接配置
您需要測(cè)試數(shù)據(jù)源與購買的資源組的連通性,連通狀態(tài)為可連通表明數(shù)據(jù)源與資源組間網(wǎng)絡(luò)是連通的。
公網(wǎng)連通
關(guān)鍵參數(shù)
說明
配置模式
選擇連接串模式。
主機(jī)地址/IP
EMR Serverless StarRocks實(shí)例中FE的公網(wǎng)地址。
端口
EMR Serverless StarRocks實(shí)例中FE的查詢端口(默認(rèn)為9030)。
Load URL
StarRocks FE的地址用于Streamload,可以為多個(gè)FE地址,形如
FE公網(wǎng)地址:FE的HTTP端口
,使用逗號(hào)分割。數(shù)據(jù)庫名稱
待連接使用的數(shù)據(jù)庫名稱。您可以通過EMR StarRocks Manager連接實(shí)例后,在元數(shù)據(jù)管理中查看。
用戶名/密碼
實(shí)例的用戶名和密碼。
創(chuàng)建StarRocks實(shí)例默認(rèn)創(chuàng)建一個(gè)admin用戶,密碼為創(chuàng)建實(shí)例時(shí)自定義的密碼。
連接配置
您需要測(cè)試數(shù)據(jù)源與購買的資源組的連通性,連通狀態(tài)為可連通表明數(shù)據(jù)源與資源組間網(wǎng)絡(luò)是連通的。
數(shù)據(jù)集成
DataWorks支持同步多種數(shù)據(jù)源的數(shù)據(jù)至EMR Serverless StarRocks表中,如MySQL、Hive、Kafka、OSS、HDFS等。以下以離線同步一個(gè)MySQL數(shù)據(jù)至EMR Serverless StarRocks表中為例,為您介紹操作要點(diǎn)。
StarRocks數(shù)據(jù)源同步任務(wù)的更多配置細(xì)節(jié),請(qǐng)參見StarRocks數(shù)據(jù)源。
進(jìn)入數(shù)據(jù)開發(fā)頁面。
登錄DataWorks控制臺(tái),切換至目標(biāo)地域后,單擊左側(cè)導(dǎo)航欄的 ,在下拉框中選擇對(duì)應(yīng)工作空間后單擊進(jìn)入數(shù)據(jù)開發(fā)。
創(chuàng)建離線同步節(jié)點(diǎn),設(shè)置數(shù)據(jù)來源為MySQL,數(shù)據(jù)去向?yàn)镾tarRocks數(shù)據(jù)源。
選擇資源組后,并分別測(cè)試與來源數(shù)據(jù)源、去向數(shù)據(jù)源的連通性。
設(shè)置調(diào)度周期,提交發(fā)布節(jié)點(diǎn)后周期執(zhí)行任務(wù)。
完成調(diào)試后,您可以單擊側(cè)邊欄的調(diào)度配置,配置調(diào)度周期、重跑策略等調(diào)度參數(shù),設(shè)置任務(wù)使用的資源組,完成后單擊提交、發(fā)布按鈕。
數(shù)據(jù)開發(fā)與調(diào)度運(yùn)維
對(duì)于需要周期調(diào)度的EMR Serverless StarRocks任務(wù),您可以在DataStudio模塊中創(chuàng)建StarRocks節(jié)點(diǎn),選擇已經(jīng)連接到的StarRocks數(shù)據(jù)源,即可編寫EMR Serverless StarRocks SQL任務(wù),并設(shè)置調(diào)度周期來周期執(zhí)行。操作步驟要點(diǎn)如下:
進(jìn)入數(shù)據(jù)開發(fā)頁面。
登錄DataWorks控制臺(tái),切換至目標(biāo)地域后,單擊左側(cè)導(dǎo)航欄的 ,在下拉框中選擇對(duì)應(yīng)工作空間后單擊進(jìn)入數(shù)據(jù)開發(fā)。
在DataStudio中創(chuàng)建StarRocks節(jié)點(diǎn),選擇已經(jīng)連接到的StarRocks的數(shù)據(jù)源,即可編寫EMR Serverless StarRocks SQL任務(wù)。
在DataStudio調(diào)試EMR Serverless StarRocks SQL任務(wù)時(shí),您需要選中待調(diào)試的SQL命令并單擊運(yùn)行按鈕,選中資源組后進(jìn)行調(diào)試。
設(shè)置調(diào)度周期,提交發(fā)布節(jié)點(diǎn)后周期執(zhí)行任務(wù)。
完成調(diào)試后,您可以單擊側(cè)邊欄的調(diào)度配置,配置調(diào)度周期、重跑策略等調(diào)度參數(shù),設(shè)置任務(wù)使用的資源組,完成后單擊提交、發(fā)布按鈕。
數(shù)據(jù)分析
您可以使用DataWorks的數(shù)據(jù)分析子模塊,對(duì)EMR Serverless StarRocks表數(shù)據(jù)進(jìn)行快速分析,操作要點(diǎn)如下。
進(jìn)入SQL查詢頁面。
登錄DataWorks控制臺(tái),切換至目標(biāo)地域后,單擊左側(cè)導(dǎo)航欄的 ,在下拉框中選擇對(duì)應(yīng)工作空間后單擊進(jìn)入SQL查詢。
單擊左邊側(cè)邊欄的圖標(biāo),單擊
,進(jìn)入系統(tǒng)管理頁面,設(shè)置StarRocks類的查詢資源組為任務(wù)使用的資源組。回到SQL查詢頁面,在右上角切換引擎類型為StarRocks,并選擇數(shù)據(jù)源,即可編輯查詢語句并運(yùn)行,進(jìn)行EMR Serverless StarRocks數(shù)據(jù)分析。
數(shù)據(jù)服務(wù)
數(shù)據(jù)服務(wù)支持生成StarRocks數(shù)據(jù)源類型的API。
進(jìn)入數(shù)據(jù)服務(wù)頁面。
登錄DataWorks控制臺(tái),切換至目標(biāo)地域后,單擊左側(cè)導(dǎo)航欄的 ,在下拉框中選擇對(duì)應(yīng)工作空間后單擊進(jìn)入數(shù)據(jù)服務(wù)。
生成一個(gè)API,并配置API參數(shù)。
數(shù)據(jù)服務(wù)支持向?qū)J胶湍_本模式兩種編輯場(chǎng)景,腳本模式支持根據(jù)查詢SQL語句自動(dòng)生成API的請(qǐng)求參數(shù)和返回參數(shù)。以下以向?qū)J綖槔秊槟纠僮饕c(diǎn)。
選擇數(shù)據(jù)源類型為StarRocks,選擇創(chuàng)建的StarRocks數(shù)據(jù)源后,選擇對(duì)應(yīng)的表,根據(jù)界面選擇API的請(qǐng)求參數(shù)、返回參數(shù)等API配置。
單擊右邊側(cè)邊欄的服務(wù)資源組,配置資源組為獨(dú)享數(shù)據(jù)服務(wù)資源組。
測(cè)試API成功后,提交并發(fā)布API。
數(shù)據(jù)地圖
數(shù)據(jù)地圖模塊支持對(duì)StarRocks數(shù)據(jù)的元數(shù)據(jù)采集、搜索和表詳情頁。
元數(shù)據(jù)采集
進(jìn)入數(shù)據(jù)地圖頁面。
登錄DataWorks控制臺(tái),切換至目標(biāo)地域后,單擊左側(cè)導(dǎo)航欄的 ,在右側(cè)頁面中單擊進(jìn)入數(shù)據(jù)地圖。
在左側(cè)導(dǎo)航欄單擊圖標(biāo),然后單擊StarRocks模塊右上角的管理按鈕。
切換至未采集列表頁簽,在操作列單擊元數(shù)據(jù)采集。
配置資源組名稱、測(cè)試連通性通過并設(shè)置采集計(jì)劃后,單擊確認(rèn),完成元數(shù)據(jù)采集配置。
說明元數(shù)據(jù)采集的更多信息,請(qǐng)參見元數(shù)據(jù)采集。
僅支持Serverless資源組運(yùn)行該任務(wù)。
搜索
進(jìn)入數(shù)據(jù)地圖頁面。
登錄DataWorks控制臺(tái),切換至目標(biāo)地域后,單擊左側(cè)導(dǎo)航欄的 ,在右側(cè)頁面中單擊進(jìn)入數(shù)據(jù)地圖。
在左側(cè)導(dǎo)航欄單擊圖標(biāo),數(shù)據(jù)源選擇StarRocks,然后即可在頂部根據(jù)不同類型數(shù)據(jù)源搜索表。
說明搜索的更多信息,請(qǐng)參見通用數(shù)據(jù)查詢與管理。
表詳情
進(jìn)入數(shù)據(jù)地圖頁面。
登錄DataWorks控制臺(tái),切換至目標(biāo)地域后,單擊左側(cè)導(dǎo)航欄的 ,在右側(cè)頁面中單擊進(jìn)入數(shù)據(jù)地圖。
在數(shù)據(jù)地圖首頁或搜索中找到目標(biāo)表后,單擊表名,進(jìn)入表詳情頁。
在表詳情頁即可查看表基礎(chǔ)信息、技術(shù)信息、業(yè)務(wù)信息、明細(xì)信息、產(chǎn)出信息及血緣信息等。
說明表詳情的更多信息,請(qǐng)參見通用數(shù)據(jù)查詢與管理。
StarRocks Serverless集群的3.1.13版本、3.2.9版本及以后的版本支持開啟元數(shù)據(jù)、血緣分析能力,具體配置方法,請(qǐng)參見查看血緣。