Hive

更新時間: 2024-12-12 18:34:08

Hive是一個基于Hadoop的數(shù)據(jù)倉庫框架，在大數(shù)據(jù)業(yè)務(wù)場景中，主要用來進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)化和加載（ETL）以及元數(shù)據(jù)管理。

背景信息

E-MapReduce（簡稱EMR）版本中，Hadoop、Hive版本和EMR集群的配套情況，請參見版本概述。

名稱	說明
HiveServer2	HiveQL查詢服務(wù)器，可以配置為Thrift或者HTTP協(xié)議，接收來自JDBC客戶端提交的SQL請求，支持多客戶端并發(fā)以及身份驗證。
Hive MetaStore	元數(shù)據(jù)管理模塊，此模塊被其他引擎所依賴，用于存儲Database和Table等元信息。例如，Spark和Presto均依賴此模塊作為其元數(shù)據(jù)管理。
Hive Client	Hive客戶端，直接利用該客戶端提交SQL作業(yè)，根據(jù)其設(shè)置運行引擎配置，可以將SQL轉(zhuǎn)換成MR作業(yè)、Tez作業(yè)和Spark作業(yè)，該模塊在所有EMR節(jié)點上均有安裝。

EMR產(chǎn)品最大程度的保持了開源社區(qū)的語法以及體驗，在Hive語法上保持與開源社區(qū)Hive語法100%的兼容性。

關(guān)于Apache Hive的更多介紹，請參見Apache Hive官網(wǎng)。