當前位置:編程學習大全網 - 網站源碼 - Spark 中 RDD 算子 ReduceByKey 和 GroupByKey 使用方法和區別

Spark 中 RDD 算子 ReduceByKey 和 GroupByKey 使用方法和區別

在對RDDPair(壹種特殊的 RDD,即RDD[(key, Row)])進行操作時經常會用到 reduceByKey() 和 groupByKey() 兩個算子。下面看看兩者的區別和使用方法:

使用reduceByKey()的時候, 本地的數據先進行merge 然後再傳輸到不同節點再進行merge,最終得到最終結果。

而使用groupByKey()的時候,並 不進行本地的merge ,全部數據傳出,得到全部數據後才會進行聚合成壹個sequence,groupByKey()傳輸速度明顯慢於reduceByKey()。

雖然groupByKey().map(func)也能實現reduceByKey(func)功能,但是 優先使用reduceByKey(func) 。

測試結果:

  • 上一篇:ue5材質怎麽改顏色
  • 下一篇:遊戲規則公雞下蛋。
  • copyright 2024編程學習大全網