當前位置:編程學習大全網 - 源碼下載 - Hadoop,Hive,Spark 之間是什麽關系

Hadoop,Hive,Spark 之間是什麽關系

用hadoop -> hive ->spark ->報表工具(brio)的架構打通數據通路之後,做數據分析會變得非常簡單(just like 圖形化開發-拖拉拽)。

在構建spark離線數據分析平臺之前,先簡單說明傳統的離線數據分析平臺。

傳統離線數據分析工作,壹般把數據結構化存儲在RDBMS,可通過SQL代碼、報表工具、挖掘工具快速對數據進行分析。因為數據進行了結構化,進行數據分析時,可專註於業務過程。此模式最大的問題在於機器和軟件成本高,性能提升不能橫向擴展。

為了降低機器和軟件的投入,解決性能的橫向擴展問題,Hadoop、spark得以長足發展。目前介紹spark做數據分析的課程,多數是介紹spark做計算引擎,hadoop做數據存儲,用Java或者Scala進行分析數據工作。在實際應用中,這種做法會導致編碼量急劇上升,分析人員無法專註於業務,容易形成業務和技術的疲於應對。

為了簡化數據分析工作,需要加強對數據規範化的工作,為此,引入hive做數據結構化管理,開啟spark-thrift的ODBC/JDBC接口,數據分析工具(報表工具/挖掘工具)通過ODBC/JDBC接入。此架構的壓力在於數據規範化過程,或者說是日常數據加工過程,需以spark-sql、h-sql作為開發基礎,開發通用java接口模板調用spark-sql生成數據,h-sql負責數據入庫。此方法執行效率不是最高,但數據處理方法是規範了,降低了日常開發難度(以SQL編程為主),同時減少開發人員水平不壹致導致的技術問題,另外數據分析人員可透明的使用數據進行分析(無需關心數據來源於RDBMS還是SPARK)。

  • 上一篇:Zkeys代理源代碼
  • 下一篇:電力系統中的GIS指的是什麽?
  • copyright 2024編程學習大全網