Pig:Yahoo開發的,並行地執行數據流處理的引擎,它包含了壹種腳本語言,稱為Pig Latin,用來描述這些數據流。Pig Latin本身提供了許多傳統的數據操作,同時允許用戶自己開發壹些自定義函數用來讀取、處理和寫數據。在LinkedIn也是大量使用。
Hive:Facebook領導的壹個數據倉庫工具,可以將結構化的數據文件映射為壹張數據庫表,並提供完整的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計。像壹些data scientist 就可以直接查詢,不需要學習其他編程接口。
Cascading/Scalding:Cascading是Twitter收購的壹個公司技術,主要是提供數據管道的壹些抽象接口,然後又推出了基於Cascading的Scala版本就叫Scalding。Coursera是用Scalding作為MapReduce的編程接口放在Amazon的EMR運行。
Zookeeper:壹個分布式的,開放源碼的分布式應用程序協調服務,是Google的Chubby壹個開源的實現。
Oozie:壹個基於工作流引擎的開源框架。由Cloudera公司貢獻給Apache的,它能夠提供對Hadoop MapReduce和Pig Jobs的任務調度與協調。
Azkaban: 跟上面很像,Linkedin開源的面向Hadoop的開源工作流系統,提供了類似於cron 的管理任務。
Tez:Hortonworks主推的優化MapReduce執行引擎,與MapReduce相比較,Tez在性能方面更加出色。