Hive

更新時間: 2024-12-12 18:34:08

Hive是一個基于Hadoop的數據倉庫框架，在大數據業務場景中，主要用來進行數據提取、轉化和加載（ETL）以及元數據管理。

背景信息

E-MapReduce（簡稱EMR）版本中，Hadoop、Hive版本和EMR集群的配套情況，請參見版本概述。

名稱	說明
HiveServer2	HiveQL查詢服務器，可以配置為Thrift或者HTTP協議，接收來自JDBC客戶端提交的SQL請求，支持多客戶端并發以及身份驗證。
Hive MetaStore	元數據管理模塊，此模塊被其他引擎所依賴，用于存儲Database和Table等元信息。例如，Spark和Presto均依賴此模塊作為其元數據管理。
Hive Client	Hive客戶端，直接利用該客戶端提交SQL作業，根據其設置運行引擎配置，可以將SQL轉換成MR作業、Tez作業和Spark作業，該模塊在所有EMR節點上均有安裝。

EMR產品最大程度的保持了開源社區的語法以及體驗，在Hive語法上保持與開源社區Hive語法100%的兼容性。

關于Apache Hive的更多介紹，請參見Apache Hive官網。