基本概念
本文為您介紹DataWorks中,數(shù)據(jù)集成、數(shù)據(jù)建模、數(shù)據(jù)開發(fā)、數(shù)據(jù)分析、數(shù)據(jù)服務(wù)等模塊開發(fā)過程中涉及的相關(guān)基本概念。
通用概念
工作空間
工作空間是DataWorks管理任務(wù)、成員,分配角色和權(quán)限的基本單元。工作空間管理員可以我工作空間加入成員,并賦予工作空間管理員、開發(fā)、運(yùn)維、部署、安全管理員或訪客角色,以實(shí)現(xiàn)多角色協(xié)同工作。
建議您根據(jù)部門或業(yè)務(wù)板塊來劃分工作空間。
資源組
DataWorks資源組屬于DataWorks的基礎(chǔ)服務(wù),為DataWorks上的各個(gè)功能模塊提供計(jì)算資源,DataWorks資源組是您正常使用DataWorks的前提。資源組的狀態(tài)將影響到相關(guān)功能的穩(wěn)定運(yùn)行,資源組的配額將影響任務(wù)或服務(wù)運(yùn)行的效率。
DataWorks資源組與阿里云賬號(hào)下的資源組不同,阿里云賬號(hào)下的資源組是進(jìn)行資源分組管理的一種機(jī)制,幫助您解決單個(gè)阿里云賬號(hào)內(nèi)的資源分組和授權(quán)管理的復(fù)雜性問題。與DataWorks產(chǎn)品所說的任務(wù)運(yùn)行使用的資源組為兩個(gè)概念,請(qǐng)注意區(qū)分。
DataWorks產(chǎn)品中使用的資源組,若無特指舊版資源組,均指Serverless資源組,其用途為通用型。
Serverless資源組,可應(yīng)用于數(shù)據(jù)集成、數(shù)據(jù)調(diào)度以及數(shù)據(jù)服務(wù)。
簡(jiǎn)單模式與標(biāo)準(zhǔn)模式
為方便不同安全管控要求的用戶生產(chǎn)數(shù)據(jù),DataWorks為您提供簡(jiǎn)單模式和標(biāo)準(zhǔn)模式兩種工作空間模式。標(biāo)準(zhǔn)模式下,一個(gè)DataWorks工作空間對(duì)應(yīng)兩個(gè)數(shù)據(jù)源,可以將開發(fā)和生產(chǎn)環(huán)境的數(shù)據(jù)源隔離。
計(jì)算資源
計(jì)算資源是計(jì)算引擎用于執(zhí)行數(shù)據(jù)處理和分析任務(wù)的資源實(shí)例,如MaxCompute項(xiàng)目(Quota組)、Hologres實(shí)例等。
一個(gè)工作空間支持添加多種數(shù)據(jù)源實(shí)例。其中,在數(shù)據(jù)開發(fā)中綁定MaxCompute、Hologres、AnalyticDB for PostgreSQL、AnalyticDB for MySQL 3.0、ClickHouse、E-MapReduce和CDH/CDP數(shù)據(jù)源后,即可在工作空間開發(fā)和調(diào)度計(jì)算資源的相關(guān)任務(wù)。
數(shù)據(jù)集成
數(shù)據(jù)源
DataWorks數(shù)據(jù)源用于連接不同的數(shù)據(jù)存儲(chǔ)服務(wù)。在配置數(shù)據(jù)集成同步任務(wù)之前,您需要首先定義好同步任務(wù)的源端和目的端數(shù)據(jù)源信息,以便在配置同步任務(wù)時(shí),能夠通過選擇數(shù)據(jù)源名稱來確定數(shù)據(jù)的讀取和寫入數(shù)據(jù)庫。一個(gè)工作空間支持添加多種數(shù)據(jù)源實(shí)例。
數(shù)據(jù)同步
數(shù)據(jù)集成數(shù)據(jù)同步支持結(jié)構(gòu)化(例如RDS、DRDS等)、半結(jié)構(gòu)化、無結(jié)構(gòu)化(OSS、TXT等)的數(shù)據(jù)同步。即數(shù)據(jù)集成僅支持傳輸能夠抽象為邏輯二維表的數(shù)據(jù),不支持同步OSS中存放完全非結(jié)構(gòu)化的數(shù)據(jù)(例如一段MP3)。數(shù)據(jù)同步支持多種同步方式,如離線同步、實(shí)時(shí)同步、單表/整庫全增量同步等,除此之外,還支持Serverless同步任務(wù)(Serverless同步任務(wù)無資源組概念,只需關(guān)注同步任務(wù)本身)。
數(shù)據(jù)建模
數(shù)據(jù)建模
隨著業(yè)務(wù)的快速發(fā)展,企業(yè)數(shù)據(jù)呈幾何倍增長(zhǎng),數(shù)據(jù)量龐大、復(fù)雜、各類數(shù)據(jù)間標(biāo)準(zhǔn)不一致,往往會(huì)出現(xiàn)數(shù)據(jù)難以管理的現(xiàn)象。DataWorks數(shù)據(jù)建模服務(wù),將無序、雜亂、繁瑣、龐大且難以管理的數(shù)據(jù),進(jìn)行結(jié)構(gòu)化、有序的管理。使企業(yè)中的數(shù)據(jù)產(chǎn)生更多的價(jià)值,將數(shù)據(jù)價(jià)值最大化。
逆向建模
逆向建模是將物理表逆向生成邏輯模型,該功能幫助您無需再次執(zhí)行建模操作即可快速創(chuàng)建模型,節(jié)省了大量的時(shí)間成本。
建模空間
當(dāng)您所需要管理多個(gè)DataWorks工作空間且需要復(fù)用一套數(shù)倉規(guī)劃時(shí),面對(duì)跨多個(gè)工作空間的復(fù)雜數(shù)據(jù)體系,可以通過設(shè)計(jì)空間來共享一套數(shù)據(jù)建模工具,針對(duì)整個(gè)數(shù)據(jù)體系進(jìn)行統(tǒng)一的數(shù)倉規(guī)劃、維度建模及指標(biāo)定義等工作。
維度表
結(jié)合業(yè)務(wù)的數(shù)據(jù)域的規(guī)劃,提取出各業(yè)務(wù)數(shù)據(jù)域中進(jìn)行數(shù)據(jù)分析時(shí)可能存在的維度,并將維度及其屬性通過維度表的方式存儲(chǔ)下來。例如,在進(jìn)行電商業(yè)務(wù)數(shù)據(jù)分析時(shí),可用的維度及其屬性有:訂單維度(屬性包括訂單ID、訂單創(chuàng)建時(shí)間、買家ID、賣家ID等)、用戶維度(性別、出生日期等)、商品維度(包括商品ID、商品名稱、商品上架時(shí)間)等,此時(shí)您就可以將這些維度和屬性創(chuàng)建為訂單維度表、用戶維度表、商品維度表等,將維度屬性記錄作為維度表的字段。
明細(xì)表
結(jié)合業(yè)務(wù)過程的規(guī)劃,梳理分析各業(yè)務(wù)過程中可能產(chǎn)生的實(shí)際數(shù)據(jù),將這些實(shí)際數(shù)據(jù)字段通過明細(xì)表的方式存儲(chǔ)下來。例如,在下訂單這一業(yè)務(wù)過程中,您可以創(chuàng)建下訂單這一明細(xì)表,用于記錄下單過程可能產(chǎn)生實(shí)際數(shù)據(jù)字段,例如訂單ID、訂單創(chuàng)建時(shí)間、商品ID、數(shù)量、金額等。后續(xù)您可將這些明細(xì)表部署到數(shù)倉中,通過ETL將真實(shí)的數(shù)據(jù)按照明細(xì)表的定義方式進(jìn)行匯總存儲(chǔ),便于業(yè)務(wù)分析時(shí)取用。
匯總表
匯總表用于組織一個(gè)數(shù)據(jù)域下相同時(shí)間周期、相同維度的多個(gè)派生指標(biāo)的統(tǒng)計(jì)數(shù)據(jù),是對(duì)業(yè)務(wù)高度抽象后的梳理結(jié)果,為后續(xù)的業(yè)務(wù)查詢,OLAP分析,數(shù)據(jù)分發(fā)等提供基礎(chǔ)。
應(yīng)用表
應(yīng)用表是面向具體業(yè)務(wù)場(chǎng)景,用于組織相同時(shí)間周期、相同維度的多個(gè)原子指標(biāo)、派生指標(biāo)或統(tǒng)計(jì)粒度的統(tǒng)計(jì)數(shù)據(jù),為后續(xù)的業(yè)務(wù)查詢,OLAP分析,數(shù)據(jù)分發(fā)等提供基礎(chǔ)。
數(shù)據(jù)集市
數(shù)據(jù)集市是基于業(yè)務(wù)分類,面向特定應(yīng)用場(chǎng)景或者產(chǎn)品的數(shù)據(jù)組織。通常位于數(shù)據(jù)應(yīng)用層,依賴于公共層的整合數(shù)據(jù)。
數(shù)倉規(guī)劃
使用DataWorks進(jìn)行數(shù)據(jù)建模時(shí),數(shù)倉架構(gòu)師或者模型小組成員可以在數(shù)倉規(guī)劃頁面對(duì)數(shù)據(jù)分層、業(yè)務(wù)分類、數(shù)據(jù)域、業(yè)務(wù)過程、數(shù)據(jù)集市、主題域進(jìn)行設(shè)計(jì)。完成設(shè)計(jì)后,模型設(shè)計(jì)師在建模過程中可以依賴數(shù)倉規(guī)劃中的數(shù)據(jù)分層、業(yè)務(wù)分類、數(shù)據(jù)域、業(yè)務(wù)過程等對(duì)所建模型進(jìn)行分層化域管理。
貼源層:用于數(shù)據(jù)庫、日志、消息等基礎(chǔ)源數(shù)據(jù)的引入。源數(shù)據(jù)經(jīng)過一系列ETL操作進(jìn)入貼源層,該層級(jí)只能掛載貼源表。
公共層:用于加工、整合貼源層輸入的公共數(shù)據(jù),建立統(tǒng)一的指標(biāo)維度,構(gòu)建可復(fù)用面向分析和統(tǒng)計(jì)的明細(xì)事實(shí)數(shù)據(jù)和匯總數(shù)據(jù)。該層級(jí)可掛載明細(xì)表、維度表、匯總表。
應(yīng)用層:基于實(shí)際應(yīng)用需求,獲取公共層加工整合后的數(shù)據(jù),面向具體應(yīng)用場(chǎng)景或指定產(chǎn)品進(jìn)行的個(gè)性化數(shù)據(jù)統(tǒng)計(jì)。該層級(jí)可以掛載應(yīng)用表、維度表。
數(shù)倉分層
DataWorks的數(shù)倉分層功能,默認(rèn)為您創(chuàng)建了數(shù)據(jù)引入層ODS(Operational Data Store)、公共維度層DIM(Dimension)、明細(xì)數(shù)據(jù)層DWD(Data Warehouse Detail)、匯總數(shù)據(jù)層DWS(Data Warehouse Summary)及應(yīng)用數(shù)據(jù)層ADS(Application Data Service)等五層,各個(gè)分層的功能介紹如下:
數(shù)據(jù)引入層 ODS(Operational Data Store)
ODS層用于接收并處理需要存儲(chǔ)至數(shù)據(jù)倉庫系統(tǒng)的原始數(shù)據(jù),其數(shù)據(jù)表的結(jié)構(gòu)與原始數(shù)據(jù)所在的數(shù)據(jù)系統(tǒng)中的表結(jié)構(gòu)一致,是數(shù)據(jù)倉庫的數(shù)據(jù)準(zhǔn)備區(qū)。
明細(xì)數(shù)據(jù)層 DWD(Data Warehouse Detail)
DWD層通過企業(yè)的業(yè)務(wù)活動(dòng)事件構(gòu)建數(shù)據(jù)模型。基于具體業(yè)務(wù)事件的特點(diǎn),構(gòu)建最細(xì)粒度的明細(xì)數(shù)據(jù)表。您可以結(jié)合企業(yè)的數(shù)據(jù)使用特點(diǎn),將明細(xì)數(shù)據(jù)表的某些重要維度屬性字段適當(dāng)冗余,即寬表化處理。同時(shí),也可以減少明細(xì)數(shù)據(jù)表及維度表的關(guān)聯(lián),提高明細(xì)表的易用性。
匯總數(shù)據(jù)層 DWS(Data Warehouse Summary)
DWS層通過分析的主題對(duì)象構(gòu)建數(shù)據(jù)模型。基于上層的應(yīng)用和產(chǎn)品的指標(biāo)需求,構(gòu)建公共粒度的匯總指標(biāo)事實(shí)表。
應(yīng)用數(shù)據(jù)層 ADS(Application Data Service)
ADS層用于存放數(shù)據(jù)產(chǎn)品個(gè)性化的統(tǒng)計(jì)指標(biāo)數(shù)據(jù),輸出各種報(bào)表。
公共維度層 DIM(Dimension)
DIM層使用維度構(gòu)建數(shù)據(jù)模型。可基于實(shí)際業(yè)務(wù),存放邏輯模型的維度表;或存放概念模型的維度定義,通過定義維度,確定維度主鍵,添加維度屬性,關(guān)聯(lián)不同維度等操作,構(gòu)建整個(gè)企業(yè)的一致性數(shù)據(jù)分析維表,幫助您降低數(shù)據(jù)計(jì)算口徑和算法不統(tǒng)一的風(fēng)險(xiǎn)。
主題域
主題域用于將數(shù)據(jù)集市按照分析視角進(jìn)行劃分,通常是聯(lián)系較為緊密的數(shù)據(jù)主題的集合。您可以根據(jù)業(yè)務(wù)的關(guān)注點(diǎn),將這些數(shù)據(jù)主題劃分至不同的主題域。例如,電商行業(yè)通常分為交易域、會(huì)員域、商品域等。
數(shù)據(jù)域
數(shù)據(jù)域是聯(lián)系較為緊密的數(shù)據(jù)主題的集合,通常是根據(jù)業(yè)務(wù)類別、數(shù)據(jù)來源、數(shù)據(jù)用途等多個(gè)維度,對(duì)企業(yè)的業(yè)務(wù)數(shù)據(jù)進(jìn)行的區(qū)域劃分,將同類型數(shù)據(jù)存放在一起,便于您快速查找需要的內(nèi)容。不同使用目的數(shù)據(jù),分類標(biāo)準(zhǔn)不同。例如,電商行業(yè)通常分為交易域、會(huì)員域、商品域等。
業(yè)務(wù)過程
業(yè)務(wù)過程是企業(yè)在指定的數(shù)據(jù)域中所執(zhí)行的業(yè)務(wù)活動(dòng),是數(shù)據(jù)建模所需要分析的邏輯主體。例如,交易域中可以有加入購物車、下單、支付等業(yè)務(wù)過程。
復(fù)合指標(biāo)
由于派生指標(biāo)只是針對(duì)某業(yè)務(wù)活動(dòng)某段時(shí)間的數(shù)據(jù)量統(tǒng)計(jì),無法滿足貼近用戶實(shí)際使用的業(yè)務(wù)增長(zhǎng)率、差值計(jì)算等數(shù)據(jù)的比對(duì)需求(例如,統(tǒng)計(jì)某業(yè)務(wù)活動(dòng)的周環(huán)比增長(zhǎng)率)。因此,DataWorks為您提供了由派生指標(biāo)通過運(yùn)算規(guī)則進(jìn)行計(jì)算而形成的復(fù)合指標(biāo),幫助您更加靈活且細(xì)粒度地定義業(yè)務(wù)指標(biāo)。
數(shù)據(jù)指標(biāo)
DataWorks的數(shù)據(jù)建模提供數(shù)據(jù)指標(biāo)功能,為您提供統(tǒng)一的指標(biāo)體系建立能力。
指標(biāo)體系由原子指標(biāo)、修飾詞、時(shí)間周期和派生指標(biāo)構(gòu)成。
原子指標(biāo):是基于某一業(yè)務(wù)過程下的度量,如“支付訂單”業(yè)務(wù)過程中的“支付金額”。
修飾詞:是對(duì)指標(biāo)統(tǒng)計(jì)業(yè)務(wù)范圍的限定,如限定“支付金額”的統(tǒng)計(jì)范圍為“母嬰類產(chǎn)品”。
時(shí)間周期:用于明確指標(biāo)統(tǒng)計(jì)的時(shí)間范圍或者時(shí)間點(diǎn),如指定統(tǒng)計(jì)“支付金額”的時(shí)間周期為“最近7天”。
派生指標(biāo):由原子指標(biāo)、修飾詞、時(shí)間周期組合定義。如,統(tǒng)計(jì)“最近7天”“母嬰類產(chǎn)品”的“支付金額”。
標(biāo)準(zhǔn)代碼
標(biāo)準(zhǔn)代碼是字段標(biāo)準(zhǔn)的取值范圍,在標(biāo)準(zhǔn)代碼中可設(shè)置某一字段標(biāo)準(zhǔn)可選擇的數(shù)據(jù)的內(nèi)容以及范圍。例如性別字段標(biāo)準(zhǔn)的標(biāo)準(zhǔn)代碼內(nèi)容應(yīng)該為男或女。
字段標(biāo)準(zhǔn)
字段標(biāo)準(zhǔn)是對(duì)含義相同但字段名稱不同的數(shù)據(jù)進(jìn)行統(tǒng)一規(guī)范管理的數(shù)據(jù)準(zhǔn)則,字段標(biāo)準(zhǔn)可定義字段的取值范圍、度量單位等內(nèi)容。當(dāng)字段標(biāo)準(zhǔn)發(fā)生變化時(shí)可快速定位或變更對(duì)應(yīng)的表,極大地提升了應(yīng)用效率和準(zhǔn)確率。
數(shù)據(jù)開發(fā)
節(jié)點(diǎn)
DataWorks的數(shù)據(jù)開發(fā)模塊為您提供多種類型的節(jié)點(diǎn),包括用于數(shù)據(jù)同步的數(shù)據(jù)集成節(jié)點(diǎn),用于數(shù)據(jù)清洗的引擎計(jì)算節(jié)點(diǎn)(例如,ODPS SQL、Hologres SQL、EMR Hive),以及可對(duì)引擎計(jì)算節(jié)點(diǎn)進(jìn)行復(fù)雜邏輯處理的通用節(jié)點(diǎn)(例如,可統(tǒng)籌管理多個(gè)節(jié)點(diǎn)的虛擬節(jié)點(diǎn)、可循環(huán)執(zhí)行代碼的do-while節(jié)點(diǎn)),多種節(jié)點(diǎn)配合使用,滿足您不同的數(shù)據(jù)處理需求。
業(yè)務(wù)流程
針對(duì)業(yè)務(wù)實(shí)體,抽象出業(yè)務(wù)流程的概念,幫助您從業(yè)務(wù)視角組織代碼的開發(fā),提高任務(wù)管理效率。
說明業(yè)務(wù)流程可以被多個(gè)解決方案復(fù)用。
業(yè)務(wù)流程幫助您從業(yè)務(wù)視角組織代碼:
支持基于任務(wù)類型的代碼組織方式。
支持多級(jí)子目錄(建議不超過四級(jí))。
支持從業(yè)務(wù)視角查看整體的業(yè)務(wù)流程,并進(jìn)行優(yōu)化。
支持根據(jù)業(yè)務(wù)流程組織發(fā)布和運(yùn)維。
提供業(yè)務(wù)流程看板,幫助您更高效地進(jìn)行開發(fā)。
SQL 組件
僅適用于MaxCompute,您可以將SQL中的通用邏輯抽象為組件,提高代碼的復(fù)用性。
SQL代碼的處理過程通常是引入一到多個(gè)源數(shù)據(jù)表,通過過濾、連接和聚合等操作,加工出新的業(yè)務(wù)需要的目標(biāo)表。組件是帶有多個(gè)輸入?yún)?shù)和輸出參數(shù)的SQL代碼過程模板。
依賴關(guān)系
任務(wù)間通過依賴關(guān)系定義任務(wù)的運(yùn)行順序。如果節(jié)點(diǎn)A運(yùn)行后,節(jié)點(diǎn)B才能運(yùn)行,我們稱A是B的上游依賴,或者B依賴A。在DAG中,依賴關(guān)系用節(jié)點(diǎn)間的箭頭表示。
業(yè)務(wù)日期
通常指的是與業(yè)務(wù)活動(dòng)直接相關(guān)的日期,這個(gè)日期反映了業(yè)務(wù)數(shù)據(jù)的實(shí)際發(fā)生時(shí)間。這個(gè)概念在離線計(jì)算場(chǎng)景中尤為重要,例如在零售業(yè)務(wù)中,您需要統(tǒng)計(jì)20241010日的營(yíng)業(yè)額,往往會(huì)在20241011日凌晨再開始計(jì)算,這時(shí)所計(jì)算出來的數(shù)據(jù)實(shí)際是20241010日的營(yíng)業(yè)額,這個(gè)20241010,就是業(yè)務(wù)日期。
輸出名稱
輸出名稱:每個(gè)任務(wù)(Task)輸出點(diǎn)的名稱。它是您在單個(gè)租戶(阿里云賬號(hào))內(nèi)設(shè)置依賴關(guān)系時(shí),用于連接上下游兩個(gè)任務(wù)(Task)的虛擬實(shí)體。
當(dāng)您在設(shè)置某任務(wù)與其它任務(wù)形成上下游依賴關(guān)系時(shí),必須根據(jù)輸出名稱(而不是節(jié)點(diǎn)名稱或節(jié)點(diǎn)ID)來完成設(shè)置。設(shè)置完成后該任務(wù)的輸出名也同時(shí)作為其下游節(jié)點(diǎn)的輸入名稱。
說明輸出名稱可以作為某個(gè)Task在同租戶內(nèi),區(qū)別于其它Task的唯一概念對(duì)象,每個(gè)節(jié)點(diǎn)的輸出名稱默認(rèn)為
工作空間名稱.系統(tǒng)生成9位數(shù)字.out
。您可以對(duì)Task增加自定義輸出名,但需要注意輸出節(jié)點(diǎn)名稱在租戶內(nèi)不允許重復(fù)。輸出表名
輸出表名建議配置為當(dāng)前任務(wù)的產(chǎn)出表,正確填寫輸出表名可以方便下游設(shè)置依賴時(shí)確認(rèn)數(shù)據(jù)是否來自期望的上游表。自動(dòng)解析生成輸出表名時(shí)不建議手動(dòng)修改,輸出表名僅作為標(biāo)識(shí),修改輸出表名不會(huì)影響SQL腳本實(shí)際產(chǎn)出的表名,實(shí)際產(chǎn)出表名以SQL邏輯為準(zhǔn)。
說明節(jié)點(diǎn)的輸出名需要全局唯一,而輸出表名無此限制。
調(diào)度參數(shù)
調(diào)度參數(shù)是代碼中用于調(diào)度運(yùn)行時(shí)動(dòng)態(tài)取值的變量。代碼在重復(fù)運(yùn)行時(shí)若希望獲取到運(yùn)行環(huán)境的一些信息,例如日期、時(shí)間等,可根據(jù)DataWorks調(diào)度系統(tǒng)的調(diào)度參數(shù)定義,動(dòng)態(tài)為代碼中的變量賦值。
DataWorks Copilot
DataWorks Copilot是您在DataWorks的智能助手,當(dāng)前階段可根據(jù)自然語言快速轉(zhuǎn)換為需要的SQL命令,包括SQL生成、SQL改寫、SQL糾錯(cuò)、生成注釋等,幫助您輕松高效地完成數(shù)據(jù)ETL及數(shù)據(jù)分析工作。
運(yùn)維中心
定時(shí)時(shí)間
用戶為周期任務(wù)設(shè)置預(yù)期執(zhí)行的時(shí)間點(diǎn),可精確到分鐘級(jí)別。
重要影響任務(wù)運(yùn)行的因素較多,并不意味著定時(shí)時(shí)間到了,任務(wù)就會(huì)立即執(zhí)行。在任務(wù)執(zhí)行前,DataWorks會(huì)檢測(cè)上游任務(wù)是否運(yùn)行成功、定時(shí)時(shí)間是否已達(dá)到、調(diào)度資源是否充足,當(dāng)上述條件均已滿足后,才開始正式觸發(fā)任務(wù)的運(yùn)行。
業(yè)務(wù)日期
通常指的是與業(yè)務(wù)活動(dòng)直接相關(guān)的日期,這個(gè)日期反映了業(yè)務(wù)數(shù)據(jù)的實(shí)際發(fā)生時(shí)間。這個(gè)概念在離線計(jì)算場(chǎng)景中尤為重要,例如在零售業(yè)務(wù)中,您需要統(tǒng)計(jì)20241010日的營(yíng)業(yè)額,往往會(huì)在20241011日凌晨再開始計(jì)算,這時(shí)所計(jì)算出來的數(shù)據(jù)實(shí)際是20241010日的營(yíng)業(yè)額,這個(gè)20241010,就是業(yè)務(wù)日期。
周期任務(wù)
指根據(jù)用戶設(shè)定的調(diào)度周期,由調(diào)度系統(tǒng)自動(dòng)觸發(fā)執(zhí)行的任務(wù)。在運(yùn)維中心的周期任務(wù)列表中,您可以對(duì)任務(wù)進(jìn)行一系列的運(yùn)維和管理操作,如查看任務(wù)的DAG圖、測(cè)試運(yùn)行、補(bǔ)數(shù)據(jù)以及修改任務(wù)責(zé)任人等。
周期實(shí)例
指根據(jù)周期任務(wù)的調(diào)度配置,自動(dòng)生成用于執(zhí)行的任務(wù)實(shí)例。例如某個(gè)任務(wù)設(shè)置為每小時(shí)調(diào)度一次,則平臺(tái)一天會(huì)生成24個(gè)任務(wù)實(shí)例,每小時(shí)會(huì)自動(dòng)觸發(fā)一個(gè)任務(wù)實(shí)例的運(yùn)行,只有實(shí)例才有運(yùn)行狀態(tài)等信息。在運(yùn)維中心的周期實(shí)例列表中,您可以對(duì)實(shí)例進(jìn)行一系列的運(yùn)維操作,如終止運(yùn)行、置成功、重跑等。
補(bǔ)數(shù)據(jù)
根據(jù)您指定的任務(wù)和選定的時(shí)間段,自動(dòng)生成補(bǔ)數(shù)據(jù)任務(wù)實(shí)例。補(bǔ)數(shù)據(jù)功能主要應(yīng)用于歷史數(shù)據(jù)回刷和數(shù)據(jù)修正。通過補(bǔ)數(shù)據(jù)功能,您可以針對(duì)任意過去或未來的時(shí)間段重新計(jì)算數(shù)據(jù),以保障數(shù)據(jù)的完整性和準(zhǔn)確性。
基線
根據(jù)您設(shè)置的基線優(yōu)先級(jí)、承諾完成時(shí)間、預(yù)警余量等配置,自動(dòng)監(jiān)控基線上的所有任務(wù),對(duì)所有影響任務(wù)按時(shí)產(chǎn)出的風(fēng)險(xiǎn)進(jìn)行預(yù)警。基線優(yōu)先級(jí)的數(shù)字越大,優(yōu)先級(jí)越高,DataWorks會(huì)對(duì)高優(yōu)先級(jí)基線上的任務(wù)進(jìn)行資源傾斜,保障任務(wù)的產(chǎn)出時(shí)間。基線的預(yù)警余量主要是預(yù)留處理異常的時(shí)間,DataWorks會(huì)用承諾完成時(shí)間減去預(yù)警余量,計(jì)算出預(yù)警時(shí)間,如果任務(wù)無法在預(yù)警時(shí)間內(nèi)產(chǎn)出,平臺(tái)會(huì)及時(shí)發(fā)出預(yù)警,將風(fēng)險(xiǎn)告知給相關(guān)業(yè)務(wù)方。
數(shù)據(jù)治理中心
健康分
健康分是衡量數(shù)據(jù)資產(chǎn)健康狀況的一個(gè)綜合指標(biāo),范圍從0到100,數(shù)值越大則代表數(shù)據(jù)資產(chǎn)的健康度越高。它基于數(shù)據(jù)治理項(xiàng),采用預(yù)定義的模型進(jìn)行量化評(píng)估,反映當(dāng)前租戶、工作空間或個(gè)人的數(shù)據(jù)治理成效。健康分體系可細(xì)分為存儲(chǔ)、計(jì)算、研發(fā)、質(zhì)量和安全等五個(gè)健康度領(lǐng)域維度,每個(gè)維度均有相應(yīng)的健康分指標(biāo),幫助用戶簡(jiǎn)化理解成本,直觀了解資產(chǎn)狀態(tài)。
治理項(xiàng)
治理項(xiàng)指在數(shù)據(jù)治理過程中識(shí)別資產(chǎn)需要優(yōu)化或解決的問題點(diǎn),覆蓋研發(fā)規(guī)范、數(shù)據(jù)質(zhì)量、安全合規(guī)、資源使用率等方面的問題。治理項(xiàng)分為強(qiáng)治理項(xiàng)和可選治理項(xiàng),前者默認(rèn)開啟且不可更改,后者則根據(jù)實(shí)際需求選擇啟用。例如,任務(wù)運(yùn)行時(shí)間超長(zhǎng)、連續(xù)出錯(cuò)節(jié)點(diǎn)、無人訪問葉子節(jié)點(diǎn)等均為治理項(xiàng)。
檢查項(xiàng)
檢查項(xiàng)是作用于數(shù)據(jù)生產(chǎn)流程的主動(dòng)式治理機(jī)制,可在數(shù)據(jù)任務(wù)提交、發(fā)布等關(guān)鍵環(huán)節(jié)進(jìn)行前置檢查,判斷代碼或數(shù)據(jù)是否存在潛在問題,如是否存在全表掃描、調(diào)度依賴配置是否缺失等。當(dāng)檢測(cè)到不符合要求內(nèi)容時(shí),會(huì)生成檢查項(xiàng)事件,系統(tǒng)自動(dòng)進(jìn)行攔截處置,從而約束和管理開發(fā)流程,確保數(shù)據(jù)處理的標(biāo)準(zhǔn)化和規(guī)范化。
數(shù)據(jù)治理計(jì)劃
數(shù)據(jù)治理計(jì)劃圍繞不同治理場(chǎng)景提供治理計(jì)劃模板,以周期時(shí)間內(nèi)的治理目標(biāo)為導(dǎo)向,快速選擇強(qiáng)相關(guān)的治理項(xiàng)和檢查項(xiàng),圈定可優(yōu)化對(duì)象,幫助負(fù)責(zé)人持續(xù)跟蹤數(shù)據(jù)治理成效,通過量化評(píng)估,推動(dòng)團(tuán)隊(duì)及時(shí)達(dá)成治理目標(biāo)。
知識(shí)庫
知識(shí)庫包含數(shù)據(jù)治理中心內(nèi)置的檢查項(xiàng)及治理項(xiàng)定義,可幫助數(shù)據(jù)治理人員快速識(shí)別和了解治理過程中遇到的具體問題,并提供解決問題的參考信息和實(shí)踐指導(dǎo),提升人員治理效率。
安全中心
數(shù)據(jù)權(quán)限
安全中心為您提供精細(xì)化的數(shù)據(jù)權(quán)限申請(qǐng)、權(quán)限審批、權(quán)限審計(jì)等功能,實(shí)現(xiàn)了權(quán)限最小化管控,同時(shí),方便您查看權(quán)限審批流程各環(huán)節(jié)的進(jìn)展,及時(shí)跟進(jìn)處理流程,詳情請(qǐng)參見數(shù)據(jù)訪問控制。
數(shù)據(jù)內(nèi)容安全
安全中心提供的數(shù)據(jù)分級(jí)分類、敏感數(shù)據(jù)識(shí)別、敏感數(shù)據(jù)訪問審計(jì)、數(shù)據(jù)源可追溯等功能,在處理業(yè)務(wù)流程的過程中,能夠快速及時(shí)識(shí)別存在安全隱患的數(shù)據(jù),保障了數(shù)據(jù)內(nèi)容的安全可靠,詳情請(qǐng)參見數(shù)據(jù)保護(hù)傘概述。
數(shù)據(jù)質(zhì)量
質(zhì)量監(jiān)控
質(zhì)量監(jiān)控指持續(xù)跟蹤和檢測(cè)數(shù)據(jù)對(duì)象(如分區(qū)表的具體分區(qū))的狀態(tài)和變化的過程,確保其符合預(yù)設(shè)的質(zhì)量要求,發(fā)現(xiàn)并解決可能影響數(shù)據(jù)質(zhì)量的問題。在DataWorks中,可以通過設(shè)置通過調(diào)度事件觸發(fā)的質(zhì)量監(jiān)控,來自動(dòng)執(zhí)行質(zhì)量校驗(yàn),并將質(zhì)量結(jié)果告警給相關(guān)負(fù)責(zé)人。
質(zhì)量規(guī)則
質(zhì)量規(guī)則是評(píng)估數(shù)據(jù)質(zhì)量是否符合預(yù)期要求的具體條件或邏輯判斷標(biāo)準(zhǔn)。例如,“客戶年齡不能小于0歲”、“訂單金額必須大于等于0元”等都屬于質(zhì)量規(guī)則。在DataWorks里,您可以根據(jù)業(yè)務(wù)需求靈活配置不同的質(zhì)量規(guī)則,并將其應(yīng)用于相應(yīng)的數(shù)據(jù)范圍進(jìn)行驗(yàn)證。當(dāng)發(fā)現(xiàn)不符合規(guī)則預(yù)期的數(shù)據(jù)時(shí),系統(tǒng)會(huì)自動(dòng)識(shí)別并進(jìn)行質(zhì)量告警。
規(guī)則模板
規(guī)則模板是預(yù)定義好校驗(yàn)邏輯的質(zhì)量規(guī)則樣例,您可以直接使用或者根據(jù)需要進(jìn)行校驗(yàn)閾值修改,然后創(chuàng)建符合自己需求的質(zhì)量規(guī)則。DataWorks提供了多種類型的規(guī)則模板供選擇,同時(shí)也支持通過自定義SQL創(chuàng)建新的模板:
系統(tǒng)模板規(guī)則:可通過DataWorks提供的內(nèi)置規(guī)則模板創(chuàng)建規(guī)則。
自定義模板規(guī)則:若系統(tǒng)內(nèi)置規(guī)則模板無法滿足您對(duì)分區(qū)表達(dá)式中數(shù)據(jù)質(zhì)量的監(jiān)控需求,則可使用自定義規(guī)則模板。您也可以將常用的自定義規(guī)則固化為規(guī)則模板,便于后續(xù)快速復(fù)用。
數(shù)據(jù)保護(hù)傘
數(shù)據(jù)分類分級(jí)
用于對(duì)您當(dāng)前的數(shù)據(jù)按照數(shù)據(jù)價(jià)值、內(nèi)容敏感程度、影響和分發(fā)范圍進(jìn)行敏感級(jí)別劃分。不同敏感級(jí)別的數(shù)據(jù)管控原則和數(shù)據(jù)開發(fā)要求存在差異。
敏感數(shù)據(jù)識(shí)別規(guī)則
根據(jù)數(shù)據(jù)的來源、用途,定義數(shù)據(jù)分類并配置敏感字段類型,識(shí)別當(dāng)前工作空間中的敏感數(shù)據(jù)。DataWorks提供了內(nèi)置數(shù)據(jù)分類及識(shí)別規(guī)則,您也可根據(jù)需要自定義數(shù)據(jù)分類及敏感數(shù)據(jù)識(shí)別規(guī)則。
數(shù)據(jù)脫敏規(guī)則
用于對(duì)識(shí)別到的敏感數(shù)據(jù)配置脫敏規(guī)則。根據(jù)業(yè)務(wù)管控要求,不同敏感級(jí)別的數(shù)據(jù)脫敏管控存在差異。
風(fēng)險(xiǎn)識(shí)別規(guī)則
根據(jù)智能化的分析技術(shù),通過風(fēng)險(xiǎn)識(shí)別規(guī)則,主動(dòng)發(fā)現(xiàn)風(fēng)險(xiǎn)操作并預(yù)警。幫助您進(jìn)行更加全面的風(fēng)險(xiǎn)管理,有效識(shí)別并規(guī)避風(fēng)險(xiǎn)。
數(shù)據(jù)地圖
元數(shù)據(jù)
元數(shù)據(jù)是數(shù)據(jù)的描述數(shù)據(jù),可以為數(shù)據(jù)說明其屬性(名稱、大小、數(shù)據(jù)類型等),或結(jié)構(gòu)(字段、類型、長(zhǎng)度等),或其相關(guān)數(shù)據(jù)(位于何處、擁有者、產(chǎn)出任務(wù)、訪問權(quán)限等)。
血緣
數(shù)據(jù)血緣是用于描述數(shù)據(jù)在處理、流轉(zhuǎn)和融合過程中形成的關(guān)聯(lián)關(guān)系。它通常展示數(shù)據(jù)是如何被創(chuàng)建、加工、同步直至最終消費(fèi)的整個(gè)過程,以及在這個(gè)過程中涉及到的所有數(shù)據(jù)對(duì)象。在DataWorks平臺(tái)上,通過可視化的方式展示數(shù)據(jù)之間的血緣關(guān)系鏈路,幫助用戶快速定位問題所在,并評(píng)估更改某張表或字段可能帶來的影響范圍。這對(duì)于維護(hù)復(fù)雜的數(shù)據(jù)處理流程尤其重要。
數(shù)據(jù)專輯
按照業(yè)務(wù)視角,進(jìn)行數(shù)據(jù)表的類目組織和管理。您可以將指定表等加入目標(biāo)專輯中進(jìn)行收納,實(shí)現(xiàn)快速、便捷地檢索和定位。
數(shù)據(jù)分析
SQL查詢
SQL查詢是使用標(biāo)準(zhǔn)的SQL語句,來查詢和分析各類數(shù)據(jù)源中的數(shù)據(jù),詳情請(qǐng)參見SQL查詢。
電子表格
電子表格是面向數(shù)據(jù)表格進(jìn)行在線編輯和管理的工具,支持將SQL查詢結(jié)果或本地文件中的數(shù)據(jù)導(dǎo)入至目標(biāo)電子表格進(jìn)行進(jìn)一步查閱、分析和可視化,也支持將電子表格中的數(shù)據(jù)進(jìn)行導(dǎo)出、下載和分享,靈活滿足日常數(shù)據(jù)分析需求。詳情請(qǐng)參見創(chuàng)建并管理電子表格。
數(shù)據(jù)洞察
數(shù)據(jù)洞察是指通過深度數(shù)據(jù)分析和解讀來獲取深刻的數(shù)據(jù)理解和發(fā)現(xiàn),它支持?jǐn)?shù)據(jù)探索和可視化。您可以通過數(shù)據(jù)洞察了解數(shù)據(jù)分布,創(chuàng)建數(shù)據(jù)卡片,并組合成數(shù)據(jù)報(bào)告。此外,數(shù)據(jù)洞察結(jié)果能夠通過長(zhǎng)圖形式的報(bào)告進(jìn)一步分享。該功能利用AI技術(shù)輔助數(shù)據(jù)分析,幫助您解析復(fù)雜數(shù)據(jù),并為業(yè)務(wù)決策提供支持。
數(shù)據(jù)服務(wù)
API
API全稱為Application Programming Interface。在DataWorks數(shù)據(jù)服務(wù)中,開發(fā)者能夠基于各類數(shù)據(jù)源快捷封裝數(shù)據(jù)API,在業(yè)務(wù)應(yīng)用、軟件、系統(tǒng)、報(bào)表等場(chǎng)景中調(diào)用數(shù)據(jù)API,實(shí)現(xiàn)數(shù)據(jù)獲取與消費(fèi)。
函數(shù)
函數(shù)是數(shù)據(jù)API的過濾器。當(dāng)函數(shù)作為API的前置過濾器時(shí),能夠?qū)φ?qǐng)求參數(shù)進(jìn)行處理,例如:請(qǐng)求參數(shù)改值、請(qǐng)求參數(shù)賦值等。當(dāng)函數(shù)作為API的后置過濾器時(shí),能夠?qū)Ψ祷亟Y(jié)果進(jìn)行二次加工,例如:更改返回結(jié)果的數(shù)據(jù)結(jié)構(gòu)、增加返回結(jié)果內(nèi)容等。
數(shù)據(jù)推送
DataWorks提供了數(shù)據(jù)推送服務(wù),該服務(wù)可以創(chuàng)建推送任務(wù),在任務(wù)內(nèi)編寫單表或多表查詢的SQL代碼來圈定數(shù)據(jù)范圍,并添加富文本或表格等內(nèi)容來組織推送消息的內(nèi)容。可以通過配置調(diào)度周期和時(shí)間,定時(shí)將數(shù)據(jù)推送至目標(biāo)Webhook中。
開放平臺(tái)
開放API(OpenAPI)
DataWorks開放平臺(tái)提供OpenAPI能力,通過調(diào)用DataWorks的OpenAPI使用DataWorks的各項(xiàng)功能,實(shí)現(xiàn)應(yīng)用和DataWorks的集成和交互。
開放事件(OpenEvent)
DataWorks的OpenEvent旨在將DataWorks的各類狀態(tài)變更情況以事件消息的方式觸達(dá)到用戶,便于用戶訂閱消息并做出個(gè)性化的響應(yīng)。例如,您可以通過OpenEvent訂閱表變更事件,從而實(shí)現(xiàn)核心表的實(shí)時(shí)監(jiān)控;通過OpenEvent訂閱任務(wù)變更事件,實(shí)現(xiàn)定制化的任務(wù)監(jiān)控。
擴(kuò)展程序(Extensions)
DataWorks擴(kuò)展程序是一種插件,結(jié)合OpenAPI及OpenEvent,您可以通過擴(kuò)展程序?qū)ataWorks中的用戶操作行為進(jìn)行自定義邏輯處理并實(shí)現(xiàn)攔截阻斷等行為管控。例如,您可以開發(fā)一個(gè)任務(wù)變更管控?cái)U(kuò)展程序,實(shí)現(xiàn)自定義任務(wù)發(fā)布流程管控。