目前DLF對Paimon Catalog提供以下存儲優化功能,使用前需要先開通存儲優化服務,并添加計算資源。
功能介紹
Compaction
Compaction功能通過合并小文件為較大文件,減少文件數量,進而降低元數據管理開銷和查詢時的文件查找成本,提升查詢性能,增強Paimon表的查詢效率。
過期快照清理
為了保證快照文件對應的歷史狀態可以被正常讀取,只要快照文件存在,該快照文件指向的歷史數據文件就不能被刪除。隨著快照文件不斷產生,歷史數據占用的存儲空間也將逐漸增加。因此需要淘汰不再使用的快照文件,以釋放它們所指向的、不再活躍的歷史數據空間,從而實現存儲資源的有效管理與釋放。
過期分區清理
業務上可能只關心最近一段時間內的數據,在這種情況下可以按時間對數據進行分區,并設置分區過期時間以自動刪除過于久遠的歷史分區,從而釋放存儲空間。
廢棄文件清理
由于作業報錯重啟等原因,Paimon表目錄下可能會遺留一些未被提交的臨時文件,這些廢棄文件無法通過快照過期刪除,需要手動或周期性執行清理。
開通存儲優化服務
登錄數據湖構建控制臺。
在Catalog列表頁面,單擊Catalog名稱。
在存儲優化頁簽,單擊策略旁的開關。
如果之前未開通過存儲優化服務,會彈出如下對話框,勾選使用須知,單擊開通存儲優化服務。
添加計算資源
登錄數據湖構建控制臺。
在左側菜單欄,單擊系統配置,單擊添加計算資源。
在彈出的面板中,配置以下信息:
名稱:必選,計算資源名稱。
描述:可選,輸入描述信息。
資源類型:必選,目前僅支持阿里云實時計算Flink全托管版。首次使用Flink全托管版,需要授權DLF提交作業的權限。
工作空間:必選,需要提前在Flink控制臺創建。引擎版本須為VVR 8.0.9及以上。如未創建,詳情請參見開通實時計算Flink版。
項目空間:必選,需要提前在Flink控制臺創建。如未創建,詳情請參見管理項目空間。
單擊連通性測試,測試通過后,單擊確定,完成添加。