當前位置:編程學習大全網 - 源碼下載 - Spark之RDD算子-轉換算子

Spark之RDD算子-轉換算子

轉換(Transformation)算子 就是對RDD進行操作的接口函數,其作用是將壹個或多個RDD變換成新的RDD。

使用Spark進行數據計算,在利用創建算子生成RDD後,數據處理的算法設計和程序編寫的最關鍵部分,就是利用變換算子對原始數據產生的RDD進行壹步壹步的變換,最終得到期望的計算結果。

對於變換算子可理解為分兩類:1,對Value型RDD進行變換的算子;2,對Key/Value型RDD進行變換算子。在每個變換中有僅對壹個RDD進行變換的,也有是對兩個RDD進行變換的。

將當前RDD進行重新分區,生成壹個以numPartitions參數指定的分區數存儲的新RDD。參數shuffle為true時在變換過程中進行shuffle操作,否則不進行shuffle。

在Linux系統中,有許多對數據進行處理的shell命令,我們可能通過pipe變換將壹些shell命令用於Spark中生成新的RDD。

對原RDD中的元素按照函數f指定的規則進行排序,並可通過ascending參數進行升序或降序設置,排序後的結果生成新的RDD,新的RDD的分區數量可以由參數numPartitions指定,默認與原RDD相同的分區數。

輸入參數為另壹個RDD,返回兩個RDD中所有元素的笛卡爾積。

輸入參數為另壹個RDD,返回原始RDD與輸入參數RDD的補集,即生成由原始RDD中而不在輸入參數RDD中的元素構成新的RDD,參數numPartitions指定新RDD分區數。

返回原始RDD與另壹個RDD的並集。

生成由原始RDD的值為Key,另壹個RDD的值為Value依次配對構成的所有Key/Value對,並返回這些Key/Value對集合構成的新RDD

將Key/Value型RDD中的元素的Key提取出來,所有Key值構成壹個序列形成新的RDD。

將Key/Value型RDD中的元素的Value值使用輸入參數函數f進行變換構成壹個新的RDD。

  • 上一篇:可視化小程序平臺源代碼
  • 下一篇:好看的槍戰電影推薦
  • copyright 2024編程學習大全網