當前位置:編程學習大全網 - 源碼下載 - 火花算子源代碼

火花算子源代碼

對Spark的正確描述是,它具有高性能的內存叠代計算框架,支持多語言快速開發和應用,是壹種內存計算方案。

火花

Spark是壹個類似Hadoop的開源集群計算環境,但兩者還是有壹些區別的。這些有用的差異使得Spark在某些工作負載上更勝壹籌。換句話說,Spark支持內存分布式數據集,不僅可以提供交互式查詢,還可以優化叠代工作負載。

Spark是用Scala語言實現的,使用Scala作為應用框架。與Hadoop不同,Spark和Scala可以緊密集成,Scala可以像操作本地集合對象壹樣輕松操作分布式數據集。

基本原理

SparkStreaming:構建了壹個在Spark上處理流數據的框架。基本原理是將流數據分成小的時間段(幾秒鐘),並以類似於批處理的方式處理這些小數據。

SparkStreaming建立在Spark之上。壹方面,Spark的低延遲執行引擎(100ms++)也可以用於實時計算,雖然比不上專門的流數據處理軟件。另壹方面,與其他基於記錄的處理框架(如Storm)相比,可以從源數據中重新計算壹些相關性較窄的RDD數據集,達到容錯處理的目的。

此外,小批量處理的方式使其兼容批量和實時數據處理的邏輯和算法。方便了壹些需要歷史數據和實時數據聯合分析的特定應用場合。SparkR還支持分布式機器學習算法,比如使用MLib機器學習庫。Spark將R語言社區的生命力引入Spark,吸引了壹大批數據科學家。

  • 上一篇:股票名稱前面的XD,XR,DR這幾個字母是什麽意思?
  • 下一篇:想要卻得不到更難過,還是觸手可及卻不能得到更痛苦?
  • copyright 2024編程學習大全網