Hive
Hive是一個基于Hadoop的數(shù)據(jù)倉庫框架,在大數(shù)據(jù)業(yè)務(wù)場景中,主要用來進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)化和加載(ETL)以及元數(shù)據(jù)管理。
背景信息
E-MapReduce(簡稱EMR)版本中,Hadoop、Hive版本和EMR集群的配套情況,請參見版本概述。
Hive結(jié)構(gòu)
名稱 | 說明 |
HiveServer2 | HiveQL查詢服務(wù)器,可以配置為Thrift或者HTTP協(xié)議,接收來自JDBC客戶端提交的SQL請求,支持多客戶端并發(fā)以及身份驗證。 |
Hive MetaStore | 元數(shù)據(jù)管理模塊,此模塊被其他引擎所依賴,用于存儲Database和Table等元信息。例如,Spark和Presto均依賴此模塊作為其元數(shù)據(jù)管理。 |
Hive Client | Hive客戶端,直接利用該客戶端提交SQL作業(yè),根據(jù)其設(shè)置運行引擎配置,可以將SQL轉(zhuǎn)換成MR作業(yè)、Tez作業(yè)和Spark作業(yè),該模塊在所有EMR節(jié)點上均有安裝。 |
Hive語法
EMR產(chǎn)品最大程度的保持了開源社區(qū)的語法以及體驗,在Hive語法上保持與開源社區(qū)Hive語法100%的兼容性。
關(guān)于Apache Hive的更多介紹,請參見Apache Hive官網(wǎng)。