Hive
Hive是一個基于Hadoop的數據倉庫框架,在大數據業務場景中,主要用來進行數據提取、轉化和加載(ETL)以及元數據管理。
背景信息
E-MapReduce(簡稱EMR)版本中,Hadoop、Hive版本和EMR集群的配套情況,請參見版本概述。
Hive結構
名稱 | 說明 |
HiveServer2 | HiveQL查詢服務器,可以配置為Thrift或者HTTP協議,接收來自JDBC客戶端提交的SQL請求,支持多客戶端并發以及身份驗證。 |
Hive MetaStore | 元數據管理模塊,此模塊被其他引擎所依賴,用于存儲Database和Table等元信息。例如,Spark和Presto均依賴此模塊作為其元數據管理。 |
Hive Client | Hive客戶端,直接利用該客戶端提交SQL作業,根據其設置運行引擎配置,可以將SQL轉換成MR作業、Tez作業和Spark作業,該模塊在所有EMR節點上均有安裝。 |
Hive語法
EMR產品最大程度的保持了開源社區的語法以及體驗,在Hive語法上保持與開源社區Hive語法100%的兼容性。
關于Apache Hive的更多介紹,請參見Apache Hive官網。