構(gòu)建數(shù)據(jù)倉庫
DataWorks具有通過可視化方式實現(xiàn)數(shù)據(jù)開發(fā)、治理全流程相關(guān)的核心能力,本文將為您介紹DataWorks在構(gòu)建云上大數(shù)據(jù)倉庫和構(gòu)建智能實時數(shù)據(jù)倉庫兩個典型應(yīng)用場景下的應(yīng)用示例。
構(gòu)建云上大數(shù)據(jù)倉庫
本場景推薦的架構(gòu)如下。
適用行業(yè):全行業(yè)適用。
方案優(yōu)勢:阿里巴巴大數(shù)據(jù)最佳實踐,高性能、低成本、Serverless服務(wù),免運維、全托管模式,讓企業(yè)的大數(shù)據(jù)研發(fā)人員更聚焦在業(yè)務(wù)數(shù)據(jù)的開發(fā)、生產(chǎn)、治理。
產(chǎn)品組合:MaxCompute + Flink + DataWorks。
場景說明
用戶數(shù)據(jù)來源豐富,包括來自云端的數(shù)據(jù)、外部數(shù)據(jù)源,數(shù)據(jù)統(tǒng)一沉淀,完成數(shù)據(jù)清洗、建模。
用戶的應(yīng)用場景復(fù)雜,對非結(jié)構(gòu)化的語音、自然語言文本進行語音識別、語義分析、情感分析等,同時融合結(jié)構(gòu)化數(shù)據(jù)搭建企業(yè)級的數(shù)據(jù)管理平臺,并且計算和存儲成本最低。
平臺支撐多種形式的應(yīng)用,包括使用機器學(xué)習(xí)算法進行復(fù)雜數(shù)據(jù)分析、使用BI報表進行圖表展現(xiàn)、使用可視化產(chǎn)品進行大屏展示、使用其他自定義的方式消費數(shù)據(jù)。
構(gòu)建智能實時數(shù)據(jù)倉庫
本場景推薦的架構(gòu)如下。
適用行業(yè):適用于電商、游戲、社交等互聯(lián)網(wǎng)行業(yè)大規(guī)模數(shù)據(jù)實時查詢場景。
方案優(yōu)勢:
阿里云實時數(shù)倉全套鏈路與離線數(shù)倉無縫打通。
滿足一套存儲,兩種計算(實時計算和離線計算)的高性價比組合。
產(chǎn)品組合:DataHub+實時計算Flink+交互式分析+MaxCompute+DataWorks+Quick BI / DataV
場景說明:
數(shù)據(jù)采集:通過DataWorks(批量)、DataHub(實時)進行統(tǒng)一數(shù)據(jù)采集接入。
數(shù)據(jù)開發(fā):基于DataWorks進行數(shù)據(jù)全鏈路研發(fā),包括數(shù)據(jù)集成、數(shù)據(jù)開發(fā)和ETL 、轉(zhuǎn)換及計算等開發(fā),以及數(shù)據(jù)作業(yè)的調(diào)度、監(jiān)控、告警等。DataWorks提供數(shù)據(jù)開發(fā)鏈路的安全管控的能力,以及基于DataWorks數(shù)據(jù)服務(wù)模塊提供統(tǒng)一數(shù)據(jù)服務(wù)API能力。
實時數(shù)據(jù):按實際業(yè)務(wù)需求使用Flink進行實時ETL(可選)、結(jié)果入庫,使用交互式分析產(chǎn)品構(gòu)建實時數(shù)據(jù)倉庫、應(yīng)用集市,并提供海量數(shù)據(jù)的實時交互查詢和分析。
交互式分析:提供實時離線聯(lián)邦查詢。歷史離線數(shù)據(jù)存放于MaxCompute,實時分析數(shù)據(jù)存放于交互式分析。基于阿里云Quick BI或第三方數(shù)據(jù)分析工具(如Tableau)執(zhí)行數(shù)據(jù)可視化,以及構(gòu)建各業(yè)務(wù)板塊數(shù)據(jù)服務(wù)門戶應(yīng)用。