Data Studio是阿里巴巴基于15年大數據經驗打造的智能湖倉一體數據開發平臺,兼容阿里云多項計算服務,提供智能化ETL、數據目錄管理及跨引擎工作流編排的產品能力。通過個人開發環境實例支持Python開發、Notebook分析與Git集成,Data Studio還支持豐富多樣的插件生態,實現了實時離線一體化、湖倉一體化、大數據AI一體化,助力“Data+AI”全生命周期的數據管理。
Data Studio介紹
Data Studio是智能湖倉一體數據開發平臺,內置阿里巴巴15年大數據建設方法論,深度適配阿里云MaxCompute、E-MapReduce、Hologres、Flink、PAI等數十種大數據和AI計算服務,為數據倉庫、數據湖、OpenLake湖倉一體數據架構提供智能化ETL開發服務,它支持:
數據目錄:具備湖倉一體元數據管理能力的數據目錄。
Workflow:能夠編排數十種引擎類型的實時及離線數據開發節點及AI節點的工作流研發模式。
個人開發環境實例:能夠運行Python節點開發及調試,支持Notebook交互式分析,以及集成Git代碼管理與NAS存儲。
Notebook:智能化交互式數據開發和分析工具,能夠面向多種數據引擎開展SQL或Python分析,即時運行或調試代碼,獲取可視化數據結果。
Data Studio公測說明
僅支持新創建工作空間時,選擇參加數據開發(Data Studio)(新版)公測。具體操作請參見創建工作空間并綁定計算資源。
說明已存在的工作空間不支持參加新版Data Studio公測。
Data Studio與舊版數據開發數據互相獨立、不互通,舊版數據開發已有節點遷移至Data Studio功能正在規劃中。
Data Studio開放公測地域:華東1(杭州)、華東2(上海)、華北2(北京)、華南1(深圳)。
進入Data Studio
進入DataWorks工作空間列表頁,在頂部切換至目標地域,找到已創建的工作空間,單擊操作列的 ,進入Data Studio。
該入口僅開通了Data Studio公測的工作空間可見,具體操作請參見創建工作空間并綁定計算資源。
Data Stuido主要功能
數據開發的主要功能介紹如下。您可參考附錄:數據開發相關概念輔助理解。
類型 | 描述 |
流程管理 | DataWorks數據開發提供工作流開發模式。工作流是一種全新的研發方式,以業務視角出發的DAG可視化開發界面,輕松管理復雜的任務工程。 說明 在Data Studio及舊版數據開發中,每個工作空間支持創建的工作流及對象數量限制如下:
若當前工作空間的工作流及對象數量達到上限,您將無法再執行新建操作。 |
任務開發 |
|
任務調度 |
|
質量管控 | 提供規范化任務發布機制,及多種方式的質量管控機制。包括但不限于以下場景: |
其他 |
任務開發流程
DataWorks數據開發支持創建多種類型引擎的實時同步任務、離線調度任務(包括離線同步任務、離線加工任務)、手動觸發任務。其中,數據同步相關能力您可前往數據集成模塊了解。
DataWorks的工作空間分為標準模式和簡單模式,不同模式的工作空間下,任務開發流程存在一定差異,兩種模式的數據開發流程示意如下。
標準模式工作空間開發流程
簡單模式工作空間開發流程
數據開發方式
Data Studio支持您自定義開發過程,您可以通過工作流(Workflow)方式快速構建數據處理流程,也可以手動創建各任務節點,然后配置其依賴關系。
Data Studio支持的節點合集
Data Studio支持數十種不同類型的節點,提供數據集成、MaxCompute、Hologres、EMR、Flink、Python、Notebook、ADB等不同類型的節點,同時,多種類型節點支持周期性任務調度,您可基于業務需要選擇合適的節點進行相關開發操作。DataWorks支持的節點合集,詳情請參見DataWorks節點合集。
附錄:數據開發相關概念
任務開發相關
概念 | 描述 |
工作流(Workflow) | 一種全新的研發方式,以業務視角出發的DAG可視化開發界面,輕松管理復雜的任務工程。Workflow支持編排數十種不同類型的節點,提供數據集成、MaxCompute、Hologres、EMR、Flink、Python、Notebook、ADB等不同類型的節點;支持Workflow級的調度配置。 |
手動工作流 | 面向某一特定業務需求的任務、表、資源、函數的集合。 手動工作流與周期工作流的區別為:手動工作流中的任務需手動觸發運行,而周期工作流中的任務是按計劃來定時觸發運行。 |
任務節點 | 任務節點是DataWorks的基本執行單元。Data Studio提供多種類型的節點,包括用于數據同步的數據集成節點,用于數據清洗的引擎計算節點(例如,ODPS SQL、Hologres SQL、EMR Hive),以及可對引擎計算節點進行復雜邏輯處理的通用節點(例如,可統籌管理多個節點的虛擬節點、可循環執行代碼的do-while節點),多種節點配合使用,滿足您不同的數據處理需求。 |
任務調度相關
概念 | 描述 |
依賴關系 | 任務間通過依賴關系定義任務的運行順序。如果節點A運行后,節點B才能運行,我們稱A是B的上游依賴,或者B依賴A。在DAG中,依賴關系用節點間的箭頭表示。 |
輸出名 | 每個任務(Task)輸出點的名稱。它是您在單個租戶(阿里云賬號)內設置依賴關系時,用于連接上下游兩個任務(Task)的虛擬實體。 當您在設置某任務與其它任務形成上下游依賴關系時,必須根據輸出名稱(而不是節點名稱或節點ID)來完成設置。設置完成后該任務的輸出名也同時作為其下游節點的輸入名稱。 |
輸出表名 | 輸出表名建議配置為當前任務的產出表,正確填寫輸出表名可以方便下游設置依賴時確認數據是否來自期望的上游表。自動解析生成輸出表名時不建議手動修改,輸出表名僅作為標識,修改輸出表名不會影響SQL腳本實際產出的表名,實際產出表名以SQL邏輯為準。 說明 節點的輸出名需要全局唯一,而輸出表名無此限制。 |
調度資源組 | 指用于任務調度的資源組。資源組介紹詳情請參見DataWorks資源組概述。 |
調度參數 | 調度參數是代碼中用于調度運行時動態取值的變量。代碼在重復運行時若希望獲取到運行環境的一些信息,例如日期、時間等,可根據DataWorks調度系統的調度參數定義,動態為代碼中的變量賦值。 |
業務日期 | 通常指的是與業務活動直接相關的日期,這個日期反映了業務數據的實際發生時間。這個概念在離線計算場景中尤為重要,例如在零售業務中,您需要統計20241010日的營業額,往往會在20241011日凌晨再開始計算,這時所計算出來的數據實際是20241010日的營業額,這個20241010,就是業務日期。 |
定時時間 | 用戶為周期任務設置預期執行的時間點,可精確到分鐘級別。 重要 影響任務運行的因素較多,并不意味著定時時間到了,任務就會立即執行。在任務執行前,DataWorks會檢測上游任務是否運行成功、定時時間是否已達到、調度資源是否充足,當上述條件均已滿足后,才開始正式觸發任務的運行。 |