基本概念
本文介紹數(shù)據(jù)資源平臺(tái)的基本概念。
任務(wù)實(shí)例說明
任務(wù)(Task):數(shù)據(jù)處理作業(yè)單元,任務(wù)定義了數(shù)據(jù)處理的操作以及其相關(guān)的配置,一個(gè)任務(wù)通常包含了需要執(zhí)行的SQL、Python腳本或者應(yīng)用包等,以及計(jì)算引擎的配置信息。
任務(wù)依賴(Task Deps):當(dāng)前任務(wù)可能需要有另外(1或者n)個(gè)任務(wù)產(chǎn)出的數(shù)據(jù),設(shè)置依賴之后,其運(yùn)行的實(shí)例需要等待上游對(duì)應(yīng)實(shí)例成功,且滿足計(jì)劃時(shí)間才會(huì)執(zhí)行。若失敗,則下游不會(huì)執(zhí)行。
任務(wù)實(shí)例(Task Instance):任務(wù)的一次運(yùn)行的承載體,任務(wù)每運(yùn)行一次就會(huì)產(chǎn)生一個(gè)實(shí)例。實(shí)例有幾種類型:周期實(shí)例、測(cè)試實(shí)例、補(bǔ)數(shù)據(jù)實(shí)例、手動(dòng)實(shí)例。不同類型的實(shí)例,是由于觸發(fā)任務(wù)運(yùn)行的方式不同。對(duì)于周期任務(wù)而言,每個(gè)周期一次運(yùn)行產(chǎn)生一個(gè)實(shí)例。
周期調(diào)度(Task Schedule):任務(wù)按需設(shè)置其執(zhí)行計(jì)劃,并被周期性執(zhí)行。 任務(wù)在設(shè)置了周期調(diào)度之后,具體到每個(gè)實(shí)例的執(zhí)行時(shí)間。調(diào)度時(shí)間有兩個(gè):
計(jì)劃時(shí)間(T_plan ),實(shí)例計(jì)劃執(zhí)行的時(shí)間。
業(yè)務(wù)時(shí)間,實(shí)例所代表的業(yè)務(wù)時(shí)間(T_biz)。
兩者的關(guān)系是: T_biz + 1 = T_plan ,這里就是離線批處理里經(jīng)典的T+1概念。
系統(tǒng)設(shè)置
租戶:在數(shù)據(jù)資源平臺(tái)產(chǎn)品中,租戶為最高級(jí)權(quán)限隔離的命名空間,一個(gè)租戶下可以有若干賬號(hào),不同賬號(hào)可以分配不用的角色,數(shù)據(jù)可以在租戶內(nèi)共享,不同租戶之間數(shù)據(jù)完全隔離。
工作組:數(shù)據(jù)資源平臺(tái)中用于數(shù)據(jù)隔離的命名空間,通常為一個(gè)用戶組、一個(gè)項(xiàng)目或一個(gè)應(yīng)用。工作組下包含云計(jì)算資源、工作組成員。工作組內(nèi)的數(shù)據(jù)通常為工作組內(nèi)全部成員可見,研發(fā)工作臺(tái)的數(shù)據(jù)權(quán)限以工作組為單元相互隔離。
數(shù)據(jù)同步
數(shù)據(jù)源:是指數(shù)據(jù)庫(kù)應(yīng)用程序所使用的數(shù)據(jù)庫(kù)或者數(shù)據(jù)庫(kù)服務(wù)器,在數(shù)據(jù)資源平臺(tái)的數(shù)據(jù)同步中可以將配置好的數(shù)據(jù)源端數(shù)據(jù)同步到目標(biāo)端。
多源異構(gòu)數(shù)據(jù):指的是多種不同結(jié)構(gòu)的數(shù)據(jù)源。
數(shù)據(jù)模板:用于對(duì)非結(jié)構(gòu)化數(shù)據(jù)的解釋,當(dāng)創(chuàng)建數(shù)據(jù)同步任務(wù)時(shí),且源端數(shù)據(jù)類型為消息中間件時(shí),通過數(shù)據(jù)模板對(duì)其進(jìn)行解釋。
Oracle CDC:實(shí)時(shí)數(shù)據(jù)同步模式,對(duì)源表進(jìn)行INSERT、UPDATE或DELETE等操作的同時(shí)可以提取數(shù)據(jù),變化的數(shù)據(jù)被保存在數(shù)據(jù)庫(kù)的變化表中,通過訂閱變化數(shù)據(jù)的方式實(shí)現(xiàn)數(shù)據(jù)的秒級(jí)同步。
MySQL Binlog:實(shí)時(shí)數(shù)據(jù)同步模式,通過同步并解析記錄所有數(shù)據(jù)庫(kù)表結(jié)構(gòu)變更(例如CREATE、ALTER TABLE…)以及表數(shù)據(jù)修改(INSERT、UPDATE、DELETE…)的二進(jìn)制日志,實(shí)現(xiàn)數(shù)據(jù)的秒級(jí)同步。
SQLServer CDC:實(shí)時(shí)數(shù)據(jù)同步模式,開啟CDC的源表在插入、更新和刪除活動(dòng)時(shí)會(huì)插入數(shù)據(jù)到日志表中。CDC通過捕獲進(jìn)程將變更數(shù)據(jù)捕獲到變更表中,通過CDC提供的查詢函數(shù),實(shí)現(xiàn)數(shù)據(jù)的秒級(jí)同步。
數(shù)據(jù)探查
內(nèi)置算法:內(nèi)置多種數(shù)據(jù)統(tǒng)計(jì)分析算法,根據(jù)不同字段類型采用不同的計(jì)算統(tǒng)計(jì)規(guī)則。
數(shù)據(jù)標(biāo)準(zhǔn)
數(shù)據(jù)標(biāo)準(zhǔn):是對(duì)含義相同但字段名稱不同的數(shù)據(jù)進(jìn)行統(tǒng)一規(guī)范管理的數(shù)據(jù)準(zhǔn)則,數(shù)據(jù)標(biāo)準(zhǔn)可定義邏輯表的命名規(guī)范、字段的取值范圍、度量單位等內(nèi)容。
數(shù)據(jù)元:表示一個(gè)數(shù)據(jù)的最小信息項(xiàng),包含基本的描述、值域范圍和約束規(guī)則。
生命周期:指的是表的生命周期,指表(分區(qū))數(shù)據(jù)從最后一次更新的時(shí)間算起,在經(jīng)過指定的時(shí)間后沒有變動(dòng),則此表(分區(qū))將被數(shù)據(jù)庫(kù)(例如:MaxCompute)自動(dòng)回收。這個(gè)指定的時(shí)間就是生命周期,生命周期的單位一般是天。
元素的長(zhǎng)度:數(shù)據(jù)元的長(zhǎng)度。
固定值:是指數(shù)據(jù)質(zhì)量運(yùn)行的一行一列結(jié)果與期望的固定值進(jìn)行比較,根據(jù)比較條件判斷質(zhì)量結(jié)果執(zhí)行是否通過。
趨勢(shì):指的是質(zhì)量規(guī)則設(shè)定的模式,分為固定值、固定值和固定值比較,以及固定值波動(dòng)率比較。
數(shù)據(jù)建模
數(shù)據(jù)模型:是數(shù)據(jù)特征的抽象,它從抽象層次上描述了系統(tǒng)的靜態(tài)特征、動(dòng)態(tài)行為和約束條件,為數(shù)據(jù)庫(kù)系統(tǒng)的信息表示與操作提供一個(gè)抽象的框架,數(shù)據(jù)資源平臺(tái)支持邏輯模型和物理模型。
邏輯模型:反映的是系統(tǒng)分析設(shè)計(jì)人員對(duì)數(shù)據(jù)存儲(chǔ)的觀點(diǎn),是對(duì)概念數(shù)據(jù)模型進(jìn)一步的分解和細(xì)化;數(shù)據(jù)資源平臺(tái)中可通過手動(dòng)、DDL語(yǔ)句、EXCEL導(dǎo)入、云計(jì)算資源掃描的方式來實(shí)現(xiàn)邏輯模型創(chuàng)建。
物理模型:是對(duì)真實(shí)數(shù)據(jù)庫(kù)的描述;數(shù)據(jù)資源平臺(tái)中通過將已創(chuàng)建好的邏輯表物理化到數(shù)據(jù)庫(kù)來實(shí)現(xiàn)物理模型的創(chuàng)建。
質(zhì)量規(guī)則:是指在特定業(yè)務(wù)環(huán)境下,用戶定義數(shù)據(jù)符合使用目的一組定量或定性的規(guī)定要求;在數(shù)據(jù)資源平臺(tái)中,可以通過對(duì)表級(jí)與字段級(jí)的數(shù)據(jù)質(zhì)量任務(wù)運(yùn)行,真實(shí)反映數(shù)據(jù)接入的唯一性、準(zhǔn)確性、規(guī)范性、一致性、時(shí)效性、完整性。
數(shù)據(jù)開發(fā)
場(chǎng)景:場(chǎng)景定義數(shù)據(jù)輸出的方式,一個(gè)場(chǎng)景包含一種或多種數(shù)據(jù)輸出的方式。
計(jì)算資源:可以執(zhí)行計(jì)算節(jié)點(diǎn)的資源。使用“場(chǎng)景加工”時(shí)并不會(huì)單獨(dú)執(zhí)行一個(gè)計(jì)算節(jié)點(diǎn)任務(wù),需要把計(jì)算節(jié)點(diǎn)組織成流程執(zhí)行,所以需要計(jì)算資源支持流程的批量執(zhí)行。
存儲(chǔ)資源:可以存儲(chǔ)數(shù)據(jù)的資源,包括離線存儲(chǔ)、在線存儲(chǔ)。
計(jì)算節(jié)點(diǎn):場(chǎng)景加工中的計(jì)算節(jié)點(diǎn)由五要素組成:計(jì)算資源、代碼、輸入數(shù)據(jù)、輸出數(shù)據(jù)和參數(shù)。代碼可在計(jì)算資源上執(zhí)行(代碼是否需要編譯由計(jì)算資源決定);輸入數(shù)據(jù)、輸出數(shù)據(jù)由邏輯表定義;參數(shù)用于控制計(jì)算節(jié)點(diǎn)的執(zhí)行。在使用計(jì)算節(jié)點(diǎn)配置任務(wù)流程時(shí),流程中連接上下游的連接線表示計(jì)算節(jié)點(diǎn)的輸入和輸出數(shù)據(jù),而節(jié)點(diǎn)參數(shù)需要通過單獨(dú)的界面進(jìn)行配置。
節(jié)點(diǎn)任務(wù)流程:通過有向無環(huán)的流程圖(DAG)描述,定義了一段處理邏輯。節(jié)點(diǎn)任務(wù)流程中所有計(jì)算節(jié)點(diǎn)的輸入、輸出數(shù)據(jù)都是具體的數(shù)據(jù)表、文件和數(shù)據(jù)流。
開發(fā)場(chǎng)景與生產(chǎn)場(chǎng)景:每個(gè)工作區(qū)都有一個(gè)開發(fā)場(chǎng)景和一個(gè)生產(chǎn)場(chǎng)景,它們是兩套獨(dú)立的資源配置。數(shù)據(jù)開發(fā)工程師只能在開發(fā)環(huán)境中注冊(cè)計(jì)算節(jié)點(diǎn),配置節(jié)點(diǎn)任務(wù)流程,并進(jìn)行開發(fā)。開發(fā)通過后要經(jīng)過上線操作才能把開發(fā)環(huán)境中的節(jié)點(diǎn)任務(wù)流程發(fā)布到生產(chǎn)環(huán)境中。任何人都不能編輯生產(chǎn)環(huán)境中的節(jié)點(diǎn)流程,但可以修改參數(shù),所有修改都會(huì)記錄在日志中。
任務(wù)運(yùn)維
任務(wù)流:由數(shù)據(jù)同步節(jié)點(diǎn)、離線計(jì)算任務(wù)節(jié)點(diǎn)、流式計(jì)算任務(wù)節(jié)點(diǎn)、自定義計(jì)算節(jié)點(diǎn)等組成的數(shù)據(jù)加工或算法服務(wù)工作流。
業(yè)務(wù)類型:提交任務(wù)流的來源,包括數(shù)據(jù)同步、數(shù)據(jù)開發(fā)、標(biāo)簽加工、標(biāo)簽同步等。
任務(wù)類型:提交任務(wù)流的來源,包括數(shù)據(jù)同步、數(shù)據(jù)開發(fā)、標(biāo)簽加工、標(biāo)簽同步等。離線同步任務(wù)、離線計(jì)算任務(wù)的任務(wù)類型,主要分為手動(dòng)、周期、補(bǔ)數(shù)據(jù)等。
節(jié)點(diǎn)類型:任務(wù)流中包含的同步節(jié)點(diǎn)、MaxCompute_SQL節(jié)點(diǎn)、Flink_Vvp節(jié)點(diǎn)、自定義計(jì)算節(jié)點(diǎn)等在不同計(jì)算資源上運(yùn)行的計(jì)算任務(wù)節(jié)點(diǎn)。
補(bǔ)數(shù)據(jù)計(jì)劃:通常情況下,對(duì)于離線周期任務(wù),當(dāng)前序任務(wù)失敗或任務(wù)第一次上線,需要通過補(bǔ)數(shù)據(jù)計(jì)劃同步或處理當(dāng)前業(yè)務(wù)日期之前數(shù)據(jù)。
資產(chǎn)運(yùn)營(yíng)
資產(chǎn)目錄:是對(duì)數(shù)據(jù)資源平臺(tái)元數(shù)據(jù)的有序組織,是記錄數(shù)據(jù)體系的保障。數(shù)據(jù)類目是目錄信息與服務(wù)、保障與支撐所組成的一個(gè)整體。針對(duì)資產(chǎn)的合理組織,需要對(duì)資產(chǎn)進(jìn)行對(duì)應(yīng)分類,如部門類目、主題類目、行業(yè)類目,可進(jìn)行該類目下資產(chǎn)數(shù)據(jù)進(jìn)行搜索、展現(xiàn)以及權(quán)限申請(qǐng)。
數(shù)據(jù)資產(chǎn):數(shù)據(jù)資源平臺(tái)中存在大量的數(shù)據(jù)表、標(biāo)簽、API等各類數(shù)據(jù)資產(chǎn),數(shù)據(jù)管理者通過數(shù)據(jù)匯聚、數(shù)據(jù)治理、數(shù)據(jù)分析后,需要對(duì)整個(gè)平臺(tái)數(shù)據(jù)進(jìn)行統(tǒng)一管控,了解平臺(tái)的核心數(shù)據(jù)資產(chǎn),提供對(duì)應(yīng)的數(shù)據(jù)資產(chǎn)管理規(guī)范。
統(tǒng)一服務(wù)
應(yīng)用:是調(diào)用API服務(wù)時(shí)的身份。每個(gè)應(yīng)用有一組AppKey和AppSecret,可以理解為賬號(hào)密碼,調(diào)用API的時(shí)候需要將AppKey做參數(shù)傳入,AppSecret用于簽名計(jì)算,即網(wǎng)關(guān)會(huì)校驗(yàn)這對(duì)密鑰對(duì)您進(jìn)行身份認(rèn)證。
API:應(yīng)用程序編程接口,是一些預(yù)先定義的函數(shù),目的是提供應(yīng)用程序與開發(fā)人員基于某軟件或硬件得以訪問一組例程的能力。
數(shù)據(jù)API:API的源頭為數(shù)據(jù)表,可以是單表也可以是多表,請(qǐng)求后最終以類SQL的形式到數(shù)據(jù)庫(kù)查詢并返回符合條件的數(shù)據(jù),將數(shù)據(jù)組裝成報(bào)文格式返回。