Hadoop，Hive，Spark 之間是什麽關系

用hadoop -> hive ->spark ->報表工具(brio)的架構打通數據通路之後，做數據分析會變得非常簡單（just like 圖形化開發-拖拉拽）。

在構建spark離線數據分析平臺之前，先簡單說明傳統的離線數據分析平臺。

傳統離線數據分析工作，壹般把數據結構化存儲在RDBMS，可通過SQL代碼、報表工具、挖掘工具快速對數據進行分析。因為數據進行了結構化，進行數據分析時，可專註於業務過程。此模式最大的問題在於機器和軟件成本高，性能提升不能橫向擴展。

為了降低機器和軟件的投入，解決性能的橫向擴展問題，Hadoop、spark得以長足發展。目前介紹spark做數據分析的課程，多數是介紹spark做計算引擎，hadoop做數據存儲，用Java或者Scala進行分析數據工作。在實際應用中，這種做法會導致編碼量急劇上升，分析人員無法專註於業務，容易形成業務和技術的疲於應對。

為了簡化數據分析工作，需要加強對數據規範化的工作，為此，引入hive做數據結構化管理，開啟spark-thrift的ODBC/JDBC接口，數據分析工具（報表工具/挖掘工具）通過ODBC/JDBC接入。此架構的壓力在於數據規範化過程，或者說是日常數據加工過程，需以spark-sql、h-sql作為開發基礎，開發通用java接口模板調用spark-sql生成數據，h-sql負責數據入庫。此方法執行效率不是最高，但數據處理方法是規範了，降低了日常開發難度（以SQL編程為主），同時減少開發人員水平不壹致導致的技術問題，另外數據分析人員可透明的使用數據進行分析(無需關心數據來源於RDBMS還是SPARK)。

上一篇:Zkeys代理源代碼

下一篇:電力系統中的GIS指的是什麽？

BL鎖是什麽意思？

處理JSP頁面時出現異常。這是什麽樣的錯誤？

qq空間動畫代碼

安卓改串軟件下載安卓改串軟件

如何禁用easyui中linkbutton的click事件？

Java混淆編譯器

學認識cpu.主板，硬盤，內存，顯卡等參數