當前位置:編程學習大全網 - 行動軟體 - GreenPlum 與hadoop什麽關系

GreenPlum 與hadoop什麽關系

GreenPlum 與hadoop什麽關系

GreenPlum的元件分成三個部分MASTER/SEGMENT以及MASTER與SEGMENT之間的高效互聯技術GNET。其中MASTER和SEGMENT本身就是獨立的資料庫SERVER。不同之處在於,MASTER只負責應用的連線,生成並拆分執行計劃,把執行計劃分配給SEGMENT節點,以及返回最終結果給應用,它只儲存壹些資料庫的元資料,不負責運算,因此不會成為系統性能的瓶頸。這也是GREENPLUM與傳統MPP架構資料庫的壹個重要區別。 SEGMENT節點儲存使用者的業務資料,並根據得到執行計劃,負責處理業務資料。也就是使用者關系表的資料會打散分布到每個SEGMENGT節點。當進行資料訪問時,首先所有SEGMENT並行處理與自己有關的資料,如果需要segment可以通過進行innterconnect進行彼此的資料互動。 segment節點越多,資料就會打的越散,處理速度就越快。因此與SHARE ALL資料庫叢集不同,通過增加SEGMENT節點伺服器的數量,GREENPLUM的效能會成線性增長。

GREENPLUM是典型關系型資料庫產品,是面向查詢的關系型資料庫,它的

特點主要就是查詢速度快,資料裝載速度快,批量DML處理快。而且效能

可以隨著硬體的新增呈線性增加,擁有非常良好的可擴充套件性。因此,它主

要適用於面向分析的應用。GreenPlum基於 Apache MADLib 的高階機器

學習功能,支援快速復雜查詢分析,滿足各種BI使用者需求。

所以,greenplum是分散式資料庫系統。

apache hadoop是大規模分散式計算的框架,涉及分散式儲存HDFS,分散式平行計算框架MapReduce,Hadoop Yarn 作業排程和叢集資源管理框架,hadoop架構相關的框架HBase,Hive,Pig,ZooKeeper,還有火到爆的spark。

可以看出hadoop更像是壹種分散式計算的框架,會有越來越多的應用框架使用hadoop框架完成大資料分析,妳甚至可以把Greenplum部署到hadoop上,完成大資料的分析處理。

主流伺服器壹般由多個NUMA節點組成,每個NUMA節點是壹個SMP結構,壹般由多個CPU組成,並且具有本地記憶體和IO裝置。

NUMA節點可以直接訪問本地記憶體,也可以通過NUMA互聯模組訪問其他NUMA節點的記憶體,但是訪問本地記憶體的速度遠遠高於遠端訪問速度,因此,開發程式要盡量減少不同NUMA節點之間的資訊互動。

gp 可以處理大量資料, hadoop 可以處理海量.

gp 只能處理湖量,或者河量. 無法處理海量.

GreenPlum采取的是PostgreSql框架,是PostgreSql系的重要應用。

從這個角度上可以知道GreenPlum是關系型資料庫。Hadoop框架是壹種分散式的平臺設計理念。

它本身不是資料庫。其中Impala可以認為是壹種非關系型的資料庫, Hive相當於SQL。

gp的定位是mpp產品,與hadoop的定向不壹樣,並且處於市場競爭關系。gp大資料並行處理的時延低,主要用來做並發查詢與即席查詢。而hadoop從資料的安全性,資料處理吞吐已經資料量為重,處理資料時的時延較高。不過gp是采用master-slave的share nothing架構,叢集擴充套件有限,master很容易成為瓶頸,最多也只能上百個節點。而hadoop的namenode需要儲存元資料,所以叢集節點也是有上限的

hadoop和cpps有什麽關系

Hadoop自帶了幾個基準測試,被打包在幾個jar包中,如hadoop-test.jar和hadoop-examples.jar,在Hadoop環境中可以很方便地執行測試。

測試使用的Hadoop版本是cloudera的hadoop-0.20.2-cdh3u3。

  • 上一篇:電動門遙控器怎麽對碼
  • 下一篇:並行空間
  • copyright 2024編程學習大全網