Spark 中 RDD 算子 ReduceByKey 和 GroupByKey 使用方法和區別

在對RDDPair（壹種特殊的 RDD，即RDD[(key, Row)]）進行操作時經常會用到 reduceByKey() 和 groupByKey() 兩個算子。下面看看兩者的區別和使用方法：

使用reduceByKey()的時候，本地的數據先進行merge 然後再傳輸到不同節點再進行merge，最終得到最終結果。

而使用groupByKey()的時候，並不進行本地的merge ，全部數據傳出，得到全部數據後才會進行聚合成壹個sequence，groupByKey()傳輸速度明顯慢於reduceByKey()。

雖然groupByKey().map(func)也能實現reduceByKey(func)功能，但是優先使用reduceByKey(func) 。

測試結果：

上一篇:ue5材質怎麽改顏色

下一篇:遊戲規則公雞下蛋。

相关文章

stm32初學者是應該學寄存器好還是學庫函數好

指標編寫。如下圖，K線最低與最高均遞增，在K線下標上箭頭；K線最高與最低均遞減，在K線上標向下箭頭

在微博看到的壹張圖，很想看，有誰知道這是哪部韓劇嗎？知道的話就請告訴我，謝謝?

ai立樁成交量指標公式

什麽是地量？

如何設置讓 oa 辦公系統能通過外部網絡訪問

易語言監視熱鍵和註冊熱鍵問題能解決壹個就行了！！

copyright 2024編程學習大全網