創建MaxCompute數據源并綁定至DataWoks數據開發后,您可以直接在數據地圖進行MaxCompute表的相關操作。包括數據檢索、數據預覽、查看元數據詳情、查看數據血緣關系、分類分組管理數據表、數據洞察等操作。本文為您介紹如何在數據地圖查看和管理MaxCompute表。
前提條件
創建MaxCompute數據源并綁定至DataWoks數據開發,綁定后DataWorks會面向引擎自動采集元數據,系統將一次性全量采集存量的元數據,同時每天采集增量的元數據,并匯集至數據地圖。由系統自動運維元數據采集器,您無需額外管理元數據采集器。
若在數據地圖中,沒有找到目標表,您可進入
,手動同步相關表。進入數據地圖
登錄DataWorks控制臺,切換至目標地域后,單擊左側導航欄的 ,在右側頁面中單擊進入數據地圖。
查找表
在左側菜單欄,單擊。進入查找表的頁面。支持您在搜索框中輸入表名、表描述等查找該數據源中包含關鍵字的所有表,您還可以單擊左側字段類目,在輸入框中輸入字段名稱、字段描述等關鍵字搜索該數據源中包含關鍵字的所有字段。同時還可以通過表所在類目、項目或數據庫進行表過濾。類目配置請參見配置管理。
對于搜索結果,您可以執行如下快捷操作:
申請權限:您可以在安全中心申請表權限,并在數據地圖查看申請記錄。詳情請參見申請和管理表權限。
加入專輯:您可以將當前表添加到目標數據專輯,在目標數據專輯詳情頁面中進行表管理。詳情請參見業務視角管理:數據專輯。
收藏表:您可以收藏或者取消收藏不需要的表。
查看血緣:單擊后,您可以查看該表基于調度作業、數據同步等實際數據流轉情況解析得出的表和表、字段和字段之間的血緣關系,暫不包含臨時查詢等手動操作產生的血緣關系。詳情請參見查看血緣信息。
查看DDL:單擊后,在生成DDL語句對話框中,查看或復制當前表的建表語句。
查看表詳情
在查找到的表結果列表中,單擊目標表名稱,即可進入表詳情頁面查看表詳細信息:
功能 | 說明 | 相關文檔 |
快捷操作 | 您可以在頁面上方對表進行申請權限、將表加入數據專輯/查看專輯、收藏表、在數據服務頁面生成API、在SQL查詢頁面通過編寫SQL語句進行數據查詢與分析等操作。 | |
表基礎信息 | 您可以在表基礎信息區域查看表的瀏覽次數、讀取次數、收藏次數、生命周期 、審批負責人、Table Owner、表類型等信息。 | |
表模型信息 | 用于查看當前模型表所屬的數倉分層、業務分類、存儲策略等信息。 單擊查看模型,即可進入 頁面,查看創建的模型表。您可以在表編輯頁面,修改表信息、發布表、查看表的操作日志或進行表模型的數據開發。說明 僅DataWorks智能數據建模生成的表會顯示模型信息。 | |
表權限信息 | 用于查看您當前擁有的表權限,您可以單擊點擊查看,進入表權限申請頁面申請權限。 | |
表技術信息 | 用于查看DDL最后變更時間、最后數據變更時間和最后查看時間。 說明 最后查看時間:
| - |
明細信息 | 用于查看表的字段信息、分區信息和變更記錄。 | |
產出信息 | 如果表的數據會隨著對應的任務周期性發生變化,您可以單擊產出信息,查看該表對應的生產任務的運行信息。此數據為離線統計,有T+1的延遲。 | - |
血緣信息 | 用于查看引擎節點內部或引擎節點間的血緣關系,您也可以查看當引擎作為數據源時,與產出的數據接口API之間的血緣關系。此外,MaxCompute還支持基于離線同步的完整鏈路血緣查看。此數據為離線統計,有T+1的延遲。 說明 如需從API視角查看上游(數據源)和下游(APP)的完整端到端血緣鏈路,請參考查看API詳情。 | |
使用說明 | 您可以進行編輯、查看歷史版本和查看markdown語法等操作,根據數據的業務說明了解相關的信息。 | - |
數據質量 | 為您展示當前表配置的數據質量監控規則詳情及DQC告警列表,您可以單擊右側的配置規則跳轉至數據質量頁面為表配置質量監控規則。 | |
使用記錄 | 通過頻繁關聯和訪問統計維度為您展示表的使用記錄。
| |
數據預覽 | 可以預覽當前表中的隨機20條數據。 | - |
數據洞察 | 您可以為表創建數據洞察,通過深度數據分析和解讀來獲取數據統計及分布情況。 說明 當前僅華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)和華南1(深圳)地域支持此功能。 |
查看表基本信息
您可以在表詳情頁左側的表基礎信息區域查看表的瀏覽次數、讀取次數、收藏次數等信息。
圖標表示當前表為DataWorks智能數據建模生成的模型表。如果您需要使用智能建模功能,請參考概述。
瀏覽次數:統計30天內在數據地圖瀏覽此表詳情頁的次數,此數據為離線統計,有T+1的延遲。
讀取次數:統計近30天內生產環境發起的讀取MaxCompute表的任務計數,讀取表的任務類型包括但不限于SQL、Tunnel Download、數據集成等。目前僅統計與調度相關聯任務的表讀取次數,非DataWorks任務的表讀取次數將不會被統計。此數據為離線統計,有T+1的延遲。
收藏次數:表被收藏的人次,為實時統計的數據。
存儲量:統計的為表的邏輯存儲大小,此數據為離線統計,有T+1的延遲。
產出任務:寫入當前表的DataWorks周期調度任務ID。若表被周期更新,但沒有展示任務ID,可能是非DataWorks周期調度任務寫入,詳可咨詢表負責人。此數據為離線統計,有T+1的延遲。
說明若無權限查看產出任務的任務代碼,則請聯系對應任務所在工作空間的管理員進行相關授權,詳情請參見開啟安全隔離代碼和日志。
查看明細信息
單擊明細信息,查看表的字段信息、分區信息和變更記錄:
字段信息
您可以查看表的字段信息,如果該表為分區表,您還可以查看分區字段信息。
操作
描述
編輯
單擊后,您可以編輯字段的描述、業務描述、安全等級和主鍵,并保存或取消編輯的內容。您也可以選中多個字段,批量設置安全等級。
批量編輯安全等級
用于批量設置表字段的安全等級,提升數據的安全性。
上傳
單擊后,拖拽本地需要上傳的數據至批量上傳字段信息對話框中。
說明僅空間管理員及表Owner支持上傳數據至目標表。如果目標用戶需要上傳數據,則可授權空間管理員權限,詳情請參見全局級模塊權限控制。
僅支持上傳.xlsx(Excel 2007版本)格式的文件,您也可以下載模板文件。
智能建模生成的模型表不支持此功能。
下載
單擊后,直接下載當前表的字段信息。
生成select
單擊后,在生成select語句對話框中,查看或復制當前表的
select
語句。生成DDL
單擊后,在生成DDL語句對話框中,查看或復制當前表的建表語句。
說明字段熱度:統計數據為前一天該字段在SQL中參與join的次數,次數按比例轉換為星級,熱度最高為5星,最小為0星。
關聯指標:展示字段關聯的模型指標。如需新建或更新關聯關系,請進入維度建模,在目標表的編輯頁面中,通過字段管理來維護字段與指標的關聯關系,發布建模表后,關聯關系即可生效。
分區信息
查看當前表的分區名、記錄數、邏輯存儲大小等分區信息。
說明分區記錄數和大小僅供參考。數據更新可能有延遲,實際以引擎側為準。
如果是MaxCompute Transactional表,暫不支持查看記錄數,固定顯示為
-1
,請以SELECT COUNT(*) FROM <表名> WHERE <分區>;
命令查詢結果為準。
變更記錄
查看當前表的變更描述、變更類型、粒度等變更記錄。
您可以在變更記錄頁簽的左上方,從變更類型列表中,選擇需要查看其變更記錄的變更類型。
查看血緣信息
血緣信息是基于解析調度作業、數據同步等真實數據的流轉情況,得出的表和表、字段和字段之間的血緣關系。在血緣信息頁面,您可查看表或表字段的上下游,查看表原始數據來源及表數據最終流向的數據庫相關信息。同時,也可根據需求進行不同層級血緣的影響分析。
僅DataWorks標準版及以上版本才可查看血緣信息。
表和字段血緣是通過解析調度作業等真實數據的流轉情況,得出不同表及不同字段間的血緣關系,該操作為離線統計,存在
T+1
的延遲。血緣信息暫不支持通過臨時查詢等手動操作產生的血緣關系。
若數據地圖無法正常展示通過PyODPS節點執行SQL產生的數據血緣關系,則您可在PyODPS任務代碼處通過手動設置DataWorks調度運行的相關參數解決。詳情請參見開發PyODPS 3任務、開發PyODPS 2任務。
查看表血緣
在表血緣頁簽,您可查看當前表的血緣關系詳情。主要包括:
查看當前表血緣關系中各節點的上下游節點個數。鼠標懸停至表或任務類型,即可查看該表或任務類型的基本信息、日志、代碼等。
在血緣圖中的輸入框輸入關鍵詞,展示當前表下游節點中包含該關鍵詞的所有表;也可輸入
@+賬號名稱
,展示當前表下游節點中該賬號名下的所有表。根據業務需求單擊血緣圖中的或,展開或收起相應的上下游節點。
查看字段血緣
在字段血緣頁簽,您可查看目標字段的血緣關系詳情。主要包括:
可根據業務需求在切換字段區域切換當前表中的字段,查看所選字段對應的字段血緣圖。
查看當前字段血緣關系中各節點的上下游節點個數。鼠標懸停至字段或任務類型,即可查看該字段或任務類型的基本信息、日志、代碼等。
在血緣圖中的輸入框輸入關鍵詞,展示當前字段下游節點中包含該關鍵詞的所有字段;也可輸入
@+賬號名稱
,展示當前字段下游節點中該賬號名下的所有字段。根據業務需求單擊血緣圖中的或,展開或收起相應的上下游節點。
影響分析
若當前表的表結構或表數據發生變化,均會對下游節點產生影響,可通過影響分析查看當前表存在哪些下游表,提前預知變更操作可能影響到哪些表。您可以在該頁面根據血緣層級、任務類型、表類型等信息進行篩選,展示所分析的血緣層級中符合條件的下游表,并支持下載分析結果至本地。
說明最多支持分析50層表血緣層級。
查看表的使用記錄
通過頻繁關聯和訪問統計維度為您展示表的使用記錄。
頻繁關聯:為您展示有多少人在使用當前的表數據。
說明統計30天內作為關聯條件參與計算的次數,此數據為離線統計,有T+1的延遲。
訪問統計:以圖表方式為您展示表的使用記錄。
讀取趨勢圖:折線圖上日期對應的為日期當天的讀取次數,區分是從開發環境還是生產環境進行讀取;字段關聯次數與任務執行次數和該字段在代碼中出現的次數相關,此數據為離線統計,有T+1的延遲。
例如:如果在同一個任務中字段出現1次,如果任務執行2次,統計次數便為2次;如果字段在代碼中出現2次,那么一次任務運行,其字段統計次數便為2次。
字段熱度明細:字段在SQL中的使用次數(where、select、join、groupBy)的統計信息。此數據為離線統計,有T+1的延遲。
讀取Top人員:統計近30天內,在SQL中對表的讀取人員的統計信息(包含調度使用的生產賬號和個人賬號的訪問),其讀取內容包括對字段的where、select、join、group by等操作。此數據為離線統計,有T+1的延遲。
查看數據洞察
數據洞察通過分析數據的結構和取值,為您展示數據的統計信息和分布情況。
當前僅華東1(杭州)、華東2(上海)、華北2(北京)、華北3(張家口)、華北6(烏蘭察布)和華南1(深圳)地域支持此功能。
開啟了Schema語法開關的表,暫不支持使用數據洞察。
單擊新建數據洞察。
配置數據洞察的分區、字段以及資源組。
說明數據洞察僅支持使用當前工作空間綁定的DataWorks Serverless資源組。更多信息,請參見Serverless資源組。
數據洞察將在DataWorks資源組上執行統計和計算,因此涉及的計算資源將會由Serverless資源組的數據計算用途來提供。更多信息,請參見數據計算計費說明。
如果資源組預估運行時所需CU大于15 CU,暫不支持使用數據洞察,系統將提示
資源預估數量超出調度引擎的資源限制
。您可以參考新建數據洞察頁面中的預估運行時所需CU,為資源組設置數據計算用途的CU上限或CU保障。
按量付費資源組
包年包月資源組
單擊開始洞察。
等待數據洞察結束后,即可看到數據洞察結果。
您可以單擊可視化數據洞察,前往數據洞察模塊查看數據洞察結果生成的卡片,您也可以單擊更多數據洞察,前往數據洞察模塊查看其它數據洞察結果。
說明數據洞察的更多信息,請參見數據洞察。
申請和管理表權限
您可通過DataWorks安全中心申請MaxCompute表的查詢與操作權限,并在數據地圖查看申請記錄。
申請表權限
進入表詳情頁面,單擊申請權限。
說明如果表被隱藏,則不會顯示申請權限按鈕。
默認進入新版安全中心的權限申請頁面。詳情請參見MaxCompute數據訪問權限控制。
管理表權限
在數據地圖左側菜單欄,單擊我的數據。
在左側導航欄,單擊權限管理。
您可以在權限管理頁面申請函數和資源權限,并查看待我審批、申請記錄和我已處理的。您可以設置權限有效期,超過申請權限時長時,系統將自動回收該權限。詳情請參見查看和管理權限。
管理MaxCompute表
使用數據專輯管理表
您可以將當前表加入目標數據專輯中,在目標數據專輯詳情頁面進行表管理,或者查看當前表已經加入的相關數據專輯。詳情請參見業務視角管理:數據專輯。
配置類目導航管理表
您可以在數據地圖左側菜單欄單擊配置管理>類目管理配置,配置類目導航對MaxCompute表進行管理。詳情請參見配置管理。