當前位置:編程學習大全網 - 源碼下載 - spark rdd有幾種創建方式

spark rdd有幾種創建方式

Spark是以RDD概念為中心運行的。RDD是壹個容錯的、可以被並行操作的元素集合。創建壹個RDD有兩個方法:在妳的驅動程序中並行化壹個已經存在的集合;從外部存儲系統中引用壹個數據集。RDD的壹大特性是分布式存儲,分布式存儲在最大的好處是可以讓數據在不同工作節點並行存儲,以便在需要數據時並行運算。彈性指其在節點存儲時,既可以使用內存,也可已使用外存,為使用者進行大數據處理提供方便。除此之外,RDD的另壹大特性是延遲計算,即壹個完整的RDD運行任務被分為兩部分:Transformation和Action

1.Transformation

Transformation用於對RDD的創建,RDD只能使用Transformation創建,同時還提供大量操作方法,包括map,filter,groupBy,join等,RDD利用這些操作生成新的RDD,但是需要註意,無論多少次Transformation,在RDD中真正數據計算Action之前都不可能真正運行。

2.Action

Action是數據執行部分,其通過執行count,reduce,collect等方法真正執行數據的計算部分。實際上,RDD中所有的操作都是Lazy模式進行,運行在編譯中不會立即計算最終結果,而是記住所有操作步驟和方法,只有顯示的遇到啟動命令才執行。這樣做的好處在於大部分前期工作在Transformation時已經完成,當Action工作時,只需要利用全部自由完成業務的核心工作。

  • 上一篇:對於鋼結構應力集中是造成構件脆性破壞的主要原因之壹
  • 下一篇:問道天罡北鬥開服時間
  • copyright 2024編程學習大全網