hive是基於Hadoop的壹個數據倉庫工具,可以將結構化的數據文件映射為壹張數據庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。它提供了壹系列的工具,可以用來進行數據提取轉化加載(ETL),這是壹種可以存儲、查詢和分析存儲在 Hadoop中的大規模數據的機制。?
(1).hive由FaceBook開源用於解決海量結構化日誌的數據統計。?
(2).hive是基於hadoop的壹個數據倉庫工具,可以將結構化的數據文件映射成壹張表,並提供類SQL查詢功能。?
(3).hive是構建在hadoop之上的數據倉庫:
使用HQL語句作為查詢接口
使用HDFS進行存儲
使用mapreduce進行計算。?
(4).hive本質是:將HQL轉化成MapReduce程序。?
(5).靈活和擴展性比較好:支持UDF,自定義存儲格式。?
(6).適合離線處理。?
(7).查詢和管理在分布式存儲的大的數據集(數據庫:增刪改查,hive不支持增刪該)。管理主要是對表的管理。