當前位置:編程學習大全網 - 編程軟體 - Spark 應用場景示例

Spark 應用場景示例

使用IDE新建Scala 或 Java 工程,確保項目結構符合 Maven 推薦的項目結構。

以IDEA為例:

從靜態數據源(Parquet,Json,CVS,JDBC,Hive,RDDs)讀取數據,運行分析

再 resource 目錄構建壹個 Json 數據源 data.json :

新建 Static Data Spark Demo.scala :

以上,我們擬對數據進行展示和基本的篩選工作(age > 10)

開啟調試,可以看到 log 中Spark執行了 3 個 Job ,並已經正確輸出了預期的結果。

接下來就可以根據需求進行更復雜的數據處理操作

從Kafka、Flume、S3/HDFS、kinesis、Twitter等數據源讀取數據進行實時分析

例:從 Kafka 讀取流數據,進行實時處理。

由於讀取Kafka流式數據,我們需要模擬kafka流。

參考Kafka文檔

核心文件 KafkaApplication.java

application.yml

以上,我們向Kafka服務器的 topic 為 saprk 上不斷發送數據以模擬數據流。

現在,啟動程序開始模擬數據流

復用上例中的目錄結構,也可以新建壹個 sbt 項目。

新建文件 StreamDataSparkDemo.scala

以上,我們從Kafaka服務器讀取壹個 topic 為 spark 的流,然後進行展示。

運行程序,輸出如下:

取出數據之後,就可以用於實時分析了。

假設topic spark 為新註冊的用戶信息,我們可以統計新用戶的每實時註冊量,以及階段內新註冊用戶性別比例。

在 StreamDataSparkDemo.scala 中修改

<未完待續...>

  • 上一篇:王維的代表詩?
  • 下一篇:1小時教妳理解HTTP,TCP,UDP,Socket,WebSocket
  • copyright 2024編程學習大全網