日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

Data Studio概述

Data Studio是阿里巴巴基于15年大數據經驗打造的智能湖倉一體數據開發平臺,兼容阿里云多項計算服務,提供智能化ETL、數據目錄管理及跨引擎工作流編排的產品能力。通過個人開發環境實例支持Python開發、Notebook分析與Git集成,Data Studio還支持豐富多樣的插件生態,實現了實時離線一體化、湖倉一體化、大數據AI一體化,助力“Data+AI”全生命周期的數據管理。

Data Studio介紹

Data Studio是智能湖倉一體數據開發平臺,內置阿里巴巴15年大數據建設方法論,深度適配阿里云MaxCompute、E-MapReduce、Hologres、Flink、PAI等數十種大數據和AI計算服務,為數據倉庫、數據湖、OpenLake湖倉一體數據架構提供智能化ETL開發服務,它支持:

  • 數據目錄:具備湖倉一體元數據管理能力的數據目錄。

  • Workflow:能夠編排數十種引擎類型的實時及離線數據開發節點及AI節點的工作流研發模式。

  • 個人開發環境實例:能夠運行Python節點開發及調試,支持Notebook交互式分析,以及集成Git代碼管理與NAS存儲。

  • Notebook:智能化交互式數據開發和分析工具,能夠面向多種數據引擎開展SQL或Python分析,即時運行或調試代碼,獲取可視化數據結果。

Data Studio公測說明

  • 僅支持新創建工作空間時,選擇參加數據開發(Data Studio)(新版)公測。具體操作請參見創建工作空間并綁定計算資源

    說明
    • 已存在的工作空間不支持參加新版Data Studio公測。

    • Data Studio與舊版數據開發數據互相獨立、不互通,舊版數據開發已有節點遷移至Data Studio功能正在規劃中。

  • Data Studio開放公測地域:華東1(杭州)、華東2(上海)、華北2(北京)、華南1(深圳)。

進入Data Studio

進入DataWorks工作空間列表頁,在頂部切換至目標地域,找到已創建的工作空間,單擊操作列的快速進入 > Data Studio,進入Data Studio。

說明

該入口僅開通了Data Studio公測的工作空間可見,具體操作請參見創建工作空間并綁定計算資源

Data Stuido主要功能

數據開發的主要功能介紹如下。您可參考附錄:數據開發相關概念輔助理解。

image

類型

描述

流程管理

DataWorks數據開發提供工作流開發模式。工作流是一種全新的研發方式,以業務視角出發的DAG可視化開發界面,輕松管理復雜的任務工程。

說明

在Data Studio及舊版數據開發中,每個工作空間支持創建的工作流及對象數量限制如下:

  • 工作流:最多支持創建10,000個。

  • 對象(節點、文件、表、資源及函數):保有DataWorks企業版的用戶,支持創建的對象數量上限為200,000;保有DataWorks專業版、標準版及基礎版的用戶,支持創建的對象數量上限為100,000

若當前工作空間的工作流及對象數量達到上限,您將無法再執行新建操作。

任務開發

  • 能力更豐富:

    • 提供豐富的引擎節點,對引擎能力進行全面封裝。

    • 提供通用類節點,可結合引擎節點進行復雜邏輯處理。例如,外部系統觸發調度,文件對象檢查、條件分支、循環執行代碼、輸出結果傳遞等復雜流程控制。

    • 基于實時計算Flink版,支持Flink流計算任務開發,支持Flink與MaxCompute、Hologres等引擎協同開發

  • 操作更簡單:

    • 提供工作流可視化開發機制,可通過拖拽組件方式快速實現多引擎任務的混合編排。

    • 提供智能化的SQL編輯器。使用SQL編輯器時,提供智能提示、SQL算子結構可視化展示、權限校驗等功能。

任務調度

  • 觸發方式:支持外部系統觸發、事件觸發、以及通過內部血緣解析上游觸發任務調度運行。

  • 依賴類型:支持設置同周期與跨周期依賴,以及多種調度周期、不同類型任務的相互依賴。

  • 執行控制:支持設置任務是否重跑;支持通過上游任務控制下游整體調度時間;支持設置調度任務的生效日期;支持定義任務的調度類型。例如,空跑(即不執行且不阻塞下游任務調度);凍結(不執行并阻塞下游任務調度)。

  • 冪等保障:提供任務重跑機制,支持自定義重跑條件與重跑次數。

質量管控

提供規范化任務發布機制,及多種方式的質量管控機制。包括但不限于以下場景:

  • 提供任務發布前人工評審代碼并支持阻塞發布存在問題的生產調度流程。

  • 支持結合數據治理的治理項檢查、擴展程序自定義校驗邏輯等方式,對任務提交及發布生產調度的操作進行自定義且自動化的流程管控。

  • 支持將質量監控與調度節點關聯,在任務運行完成后觸發質量規則校驗,幫助您第一時間感知問題數據。

其他

  • 開放能力:結合開放平臺提供豐富的OpenAPI,并內置大量擴展點,可通過DataWorks開放平臺實現DataWorks數據開發相關事件消息的訂閱。

  • 權限控制:支持界面功能權限及數據訪問權限控制。詳情請參見空間級模塊權限管控

任務開發流程

DataWorks數據開發支持創建多種類型引擎的實時同步任務、離線調度任務(包括離線同步任務、離線加工任務)、手動觸發任務。其中,數據同步相關能力您可前往數據集成模塊了解。

DataWorks的工作空間分為標準模式和簡單模式,不同模式的工作空間下,任務開發流程存在一定差異,兩種模式的數據開發流程示意如下。

標準模式工作空間開發流程

image

簡單模式工作空間開發流程

image

  • 基本流程:以標準模式為例,調度任務的開發流程包括開發、調試、調度配置、發布、運維等階段。

  • 流程管控:任務在開發過程可結合Data Studio自帶的代碼評審、數據治理中心概述預設的檢查項、開放平臺基于擴展程序實現自定義邏輯校驗等功能,保障開發任務符合規范。

數據開發方式

Data Studio支持您自定義開發過程,您可以通過工作流(Workflow)方式快速構建數據處理流程,也可以手動創建各任務節點,然后配置其依賴關系。

Data Studio支持的節點合集

Data Studio支持數十種不同類型的節點,提供數據集成、MaxCompute、Hologres、EMR、Flink、Python、Notebook、ADB等不同類型的節點,同時,多種類型節點支持周期性任務調度,您可基于業務需要選擇合適的節點進行相關開發操作。DataWorks支持的節點合集,詳情請參見DataWorks節點合集

附錄:數據開發相關概念

任務開發相關

概念

描述

工作流(Workflow)

一種全新的研發方式,以業務視角出發的DAG可視化開發界面,輕松管理復雜的任務工程。Workflow支持編排數十種不同類型的節點,提供數據集成、MaxCompute、Hologres、EMR、Flink、Python、Notebook、ADB等不同類型的節點;支持Workflow級的調度配置。

手動工作流

面向某一特定業務需求的任務、表、資源、函數的集合。

手動工作流與周期工作流的區別為:手動工作流中的任務需手動觸發運行,而周期工作流中的任務是按計劃來定時觸發運行。

任務節點

任務節點是DataWorks的基本執行單元。Data Studio提供多種類型的節點,包括用于數據同步的數據集成節點,用于數據清洗的引擎計算節點(例如,ODPS SQL、Hologres SQL、EMR Hive),以及可對引擎計算節點進行復雜邏輯處理的通用節點(例如,可統籌管理多個節點的虛擬節點、可循環執行代碼的do-while節點),多種節點配合使用,滿足您不同的數據處理需求。

任務調度相關

概念

描述

依賴關系

任務間通過依賴關系定義任務的運行順序。如果節點A運行后,節點B才能運行,我們稱A是B的上游依賴,或者B依賴A。在DAG中,依賴關系用節點間的箭頭表示。

輸出名

每個任務(Task)輸出點的名稱。它是您在單個租戶(阿里云賬號)內設置依賴關系時,用于連接上下游兩個任務(Task)的虛擬實體。

當您在設置某任務與其它任務形成上下游依賴關系時,必須根據輸出名稱(而不是節點名稱或節點ID)來完成設置。設置完成后該任務的輸出名也同時作為其下游節點的輸入名稱。

輸出表名

輸出表名建議配置為當前任務的產出表,正確填寫輸出表名可以方便下游設置依賴時確認數據是否來自期望的上游表。自動解析生成輸出表名時不建議手動修改,輸出表名僅作為標識,修改輸出表名不會影響SQL腳本實際產出的表名,實際產出表名以SQL邏輯為準。

說明

節點的輸出名需要全局唯一,而輸出表名無此限制。

調度資源組

指用于任務調度的資源組。資源組介紹詳情請參見DataWorks資源組概述

調度參數

調度參數是代碼中用于調度運行時動態取值的變量。代碼在重復運行時若希望獲取到運行環境的一些信息,例如日期、時間等,可根據DataWorks調度系統的調度參數定義,動態為代碼中的變量賦值。

業務日期

通常指的是與業務活動直接相關的日期,這個日期反映了業務數據的實際發生時間。這個概念在離線計算場景中尤為重要,例如在零售業務中,您需要統計20241010日的營業額,往往會在20241011日凌晨再開始計算,這時所計算出來的數據實際是20241010日的營業額,這個20241010,就是業務日期。

定時時間

用戶為周期任務設置預期執行的時間點,可精確到分鐘級別。

重要

影響任務運行的因素較多,并不意味著定時時間到了,任務就會立即執行。在任務執行前,DataWorks會檢測上游任務是否運行成功、定時時間是否已達到、調度資源是否充足,當上述條件均已滿足后,才開始正式觸發任務的運行。