當前位置:編程學習大全網 - 熱門推薦 - spark處理4億數據要多久

spark處理4億數據要多久

大概4.5個小時

Apache Spark 是專為大規模數據處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用並行框架,Spark,擁有Hadoop MapReduce所具有的優點;但不同於MapReduce的是——Job中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark能更好地適用於數據挖掘與機器學習等需要叠代的MapReduce的算法。

Spark 是壹種與 Hadoop 相似的開源集群計算環境,但是兩者之間還存在壹些不同之處,這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優越,換句話說,Spark 啟用了內存分布數據集,除了能夠提供交互式查詢外,它還可以優化叠代工作負載。

  • 上一篇:美英法對敘利亞發起進攻,最後會不會演變成俄羅斯和西方國家的沖突?
  • 下一篇:範冰冰戛納紅毯禮服是哪裏來的
  • copyright 2024編程學習大全網