Hadoop是壹個開源框架,用於以分布式方式存儲和處理大數據。Hadoop的核心組件是 -
HDFS(Hadoop分布式文件系統) - HDFS是Hadoop的基本存儲系統。在商用硬件集群上運行的大型數據文件存儲在HDFS中。即使硬件出現故障,它也能以可靠的方式存儲數據。
Hadoop MapReduce - MapReduce是負責數據處理的Hadoop層。它編寫了壹個應用程序來處理存儲在HDFS中的非結構化和結構化數據。它負責通過將數據劃分為獨立任務來並行處理大量數據。處理分兩個階段完成Map和Reduce。Map是指定復雜邏輯代碼的第壹個處理階段,Reduce是指定輕量級操作的第二階段處理。
YARN - Hadoop中的處理框架是YARN。它用於資源管理並提供多種數據處理引擎,即數據科學,實時流和批處理。