數據探索(Beta)
數據探索是一種在線的交互式查詢服務,開通即用。它是完全托管的,并且具備了高性能、彈性、易用等特點,無需申請任何資源即可直接使用,且代碼運行環境歸屬于用戶。用戶可以對入湖后的數據使用Spark SQL快速地進行數據探索,以便對湖內數據進行審核、質量檢查、分類等。支持數據湖內多種存儲格式,包括Delta、Hudi、CSV、Parquet、JSON、ORC等數據格式。
準備工作
運行查詢
登錄數據湖構建控制臺,在左側菜單中選擇數據探索。
左側數據庫/表區域,會列舉出當前賬戶下所有元數據庫和元數據表。您可以在此區域查看元數據表的基礎信息,或者生成數據預覽SQL語句。
在右側SQL編輯器區域,輸入SQL語句。本功能基于EMR Spark 2.4版本,更多特性詳情請參見Spark SQL Guide。示例如下:
-- SQL語句示例 show databases;
單擊運行(或快捷鍵F8),下方會展示查詢進度狀態,當查詢完畢時會直接顯示查詢結果。查詢結果會分頁展示,受前端限制目前最多展示10000條數據。如需獲取全部查詢結果,可以在配置存儲路徑之后進入OSS查看,或直接點擊下載。
重要DLF-Spark SQL不會在您的SQL語句后面自動加limit限制,請避免不必要的全表掃描,以免造成資源浪費。
說明使用限制:
SQL執行超時時間:60分鐘。
SQL長度限制:不超過6000字符。
查詢結果展示:最多10000行。
同一個賬號,最大使用Spark Driver內存:4G。
同一個賬號,最大使用CU限制:200CU (1CU=1核4GB)。
結果路徑設置
您可以通過路徑設置,把每次查詢結果保存在OSS上,以便于全量結果的下載和歸檔。僅當設置了保存路徑之后,才可以使用結果下載功能。保存的結果文件沒有時間限制。
在左側菜單中選擇數據探索,單擊右上方的路徑設置。
在彈出的OSS輸入框中,選擇用于保存查詢結果的OSS路徑,單擊確定。
設置成功之后,執行的查詢結果會自動全量寫入您設置的OSS路徑中,目前默認以CSV格式保存。如果您的查詢結果很大時,下載導出可能需要幾分鐘,請耐心等待。
保存查詢
對于常用的查詢,您可以直接保存。
在SQL編輯器中輸入SQL語句,單擊保存。
在彈出的輸入框中,輸入本次保存的查詢名稱。
保存成功后,您可以在下方的已存查詢中,恢復保存過的查詢。