Apache Hudi是一個支持插入、更新、刪除的數據湖框架,通常用于基于對象存儲構建低成本Lakehouse。同時Apache Hudi還支持多版本的?件管理協議,提供?湖和分析過程中的增量數據實時寫?、ACID事務、小?件?動合并優化、元信息校驗和Schema演進、?效的列式分析格式、?效的索引優化、超?分區表存儲等能?。
AnalyticDB MySQL團隊基于Apache Hudi構建低成本Lakehouse的方案,完全兼容開源Hudi生態。開通
AnalyticDB MySQL服務后只需簡單配置即可基于OSS存儲和Hudi構建Lakehouse,如通過APS服務將Kafka/SLS日志型數據準實時入湖,或利用
AnalyticDB MySQL Serverless Spark引擎將RDS/Parquet離線數據批量入湖。方案架構圖如下所示:
AnalyticDB MySQL與Apache Hudi進行深度整合并對Hudi內核做了深度改造,相對于開源Hudi方案,具有以下優勢:
- 使用門檻低
- 通過APS白屏化配置即可支持數據快速寫入Hudi,同時 AnalyticDB MySQL和Hudi屏蔽了對接Spark的繁瑣配置,開箱即用。
- 高性能寫入
- 面向對象存儲OSS寫入進行深度優化。在典型日志場景中,相較于開源方案寫OSS性能提升1倍以上;同時支持熱點數據自動打散,解決數據傾斜問題,大幅提升寫入穩定性。
- 分區級生命周期管理
- 支持設置多種策略,如按分區數、按數據量和按過期時間策略管理分區數據生命周期,同時支持并發設置生命周期管理策略,進一步降低存儲成本。
- 異步Table Service
- 支持異步Table Service服務,與寫入鏈路完全隔離,對寫入鏈路無任何影響,同時通過異步Table Service如Clustering提升查詢性能,典型場景下查詢性能提升至原來的40%以上。
- 元數據自動同步
- 借助 AnalyticDB MySQL統一元數據服務,數據寫入Hudi后可通過 AnalyticDB MySQL Serverless Spark和XIHE引擎無縫訪問,無需手動同步表元數據,一份入湖數據支持上層多個計算引擎。