當前位置:編程學習大全網 - 編程軟體 - 如何用形象的比喻描述大數據的技術生態

如何用形象的比喻描述大數據的技術生態

HBase:是壹個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,利用HBase技術可在廉價PC Server上搭建起大規模結構化數據集群。像Facebook,都拿它做大型實時應用 Facebook's New Realtime Analytics System: HBase to Process 20 Billion Events Per Day

Pig:Yahoo開發的,並行地執行數據流處理的引擎,它包含了壹種腳本語言,稱為Pig Latin,用來描述這些數據流。Pig Latin本身提供了許多傳統的數據操作,同時允許用戶自己開發壹些自定義函數用來讀取、處理和寫數據。在LinkedIn也是大量使用。

Hive:Facebook領導的壹個數據倉庫工具,可以將結構化的數據文件映射為壹張數據庫表,並提供完整的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計。像壹些data scientist 就可以直接查詢,不需要學習其他編程接口。

Cascading/Scalding:Cascading是Twitter收購的壹個公司技術,主要是提供數據管道的壹些抽象接口,然後又推出了基於Cascading的Scala版本就叫Scalding。Coursera是用Scalding作為MapReduce的編程接口放在Amazon的EMR運行。

Zookeeper:壹個分布式的,開放源碼的分布式應用程序協調服務,是Google的Chubby壹個開源的實現。

Oozie:壹個基於工作流引擎的開源框架。由Cloudera公司貢獻給Apache的,它能夠提供對Hadoop MapReduce和Pig Jobs的任務調度與協調。

Azkaban: 跟上面很像,Linkedin開源的面向Hadoop的開源工作流系統,提供了類似於cron 的管理任務。

Tez:Hortonworks主推的優化MapReduce執行引擎,與MapReduce相比較,Tez在性能方面更加出色。

  • 上一篇:幫我查個牌子,在河南商丘的面粉品牌 我在坐火車時看到的牌子 叫做 小丫面粉
  • 下一篇:編程操作系統
  • copyright 2024編程學習大全網