GreenPlum 與hadoop什麽關系

GreenPlum的元件分成三個部分MASTER/SEGMENT以及MASTER與SEGMENT之間的高效互聯技術GNET。其中MASTER和SEGMENT本身就是獨立的資料庫SERVER。不同之處在於，MASTER只負責應用的連線，生成並拆分執行計劃，把執行計劃分配給SEGMENT節點，以及返回最終結果給應用，它只儲存壹些資料庫的元資料，不負責運算，因此不會成為系統性能的瓶頸。這也是GREENPLUM與傳統MPP架構資料庫的壹個重要區別。 SEGMENT節點儲存使用者的業務資料，並根據得到執行計劃，負責處理業務資料。也就是使用者關系表的資料會打散分布到每個SEGMENGT節點。當進行資料訪問時，首先所有SEGMENT並行處理與自己有關的資料，如果需要segment可以通過進行innterconnect進行彼此的資料互動。 segment節點越多，資料就會打的越散，處理速度就越快。因此與SHARE ALL資料庫叢集不同，通過增加SEGMENT節點伺服器的數量，GREENPLUM的效能會成線性增長。

GREENPLUM是典型關系型資料庫產品，是面向查詢的關系型資料庫，它的

特點主要就是查詢速度快，資料裝載速度快，批量DML處理快。而且效能

可以隨著硬體的新增呈線性增加，擁有非常良好的可擴充套件性。因此，它主

要適用於面向分析的應用。GreenPlum基於 Apache MADLib 的高階機器

學習功能，支援快速復雜查詢分析，滿足各種BI使用者需求。

所以，greenplum是分散式資料庫系統。

apache hadoop是大規模分散式計算的框架，涉及分散式儲存HDFS，分散式平行計算框架MapReduce，Hadoop Yarn 作業排程和叢集資源管理框架，hadoop架構相關的框架HBase,Hive,Pig,ZooKeeper，還有火到爆的spark。

可以看出hadoop更像是壹種分散式計算的框架，會有越來越多的應用框架使用hadoop框架完成大資料分析，妳甚至可以把Greenplum部署到hadoop上，完成大資料的分析處理。

主流伺服器壹般由多個NUMA節點組成，每個NUMA節點是壹個SMP結構，壹般由多個CPU組成，並且具有本地記憶體和IO裝置。

NUMA節點可以直接訪問本地記憶體，也可以通過NUMA互聯模組訪問其他NUMA節點的記憶體，但是訪問本地記憶體的速度遠遠高於遠端訪問速度，因此，開發程式要盡量減少不同NUMA節點之間的資訊互動。

gp 可以處理大量資料, hadoop 可以處理海量.

gp 只能處理湖量,或者河量. 無法處理海量.

GreenPlum采取的是PostgreSql框架，是PostgreSql系的重要應用。

從這個角度上可以知道GreenPlum是關系型資料庫。Hadoop框架是壹種分散式的平臺設計理念。

它本身不是資料庫。其中Impala可以認為是壹種非關系型的資料庫, Hive相當於SQL。

gp的定位是mpp產品，與hadoop的定向不壹樣，並且處於市場競爭關系。gp大資料並行處理的時延低，主要用來做並發查詢與即席查詢。而hadoop從資料的安全性，資料處理吞吐已經資料量為重，處理資料時的時延較高。不過gp是采用master-slave的share nothing架構，叢集擴充套件有限，master很容易成為瓶頸，最多也只能上百個節點。而hadoop的namenode需要儲存元資料，所以叢集節點也是有上限的

hadoop和cpps有什麽關系

Hadoop自帶了幾個基準測試，被打包在幾個jar包中，如hadoop-test.jar和hadoop-examples.jar，在Hadoop環境中可以很方便地執行測試。

測試使用的Hadoop版本是cloudera的hadoop-0.20.2-cdh3u3。

上一篇:電動門遙控器怎麽對碼

下一篇:並行空間