Spark 應用場景示例

使用IDE新建Scala 或 Java 工程，確保項目結構符合 Maven 推薦的項目結構。

以IDEA為例：

從靜態數據源(Parquet,Json,CVS,JDBC,Hive,RDDs)讀取數據，運行分析

再 resource 目錄構建壹個 Json 數據源 data.json :

新建 Static Data Spark Demo.scala :

以上，我們擬對數據進行展示和基本的篩選工作(age > 10)

開啟調試,可以看到 log 中Spark執行了 3 個 Job ，並已經正確輸出了預期的結果。

接下來就可以根據需求進行更復雜的數據處理操作

從Kafka、Flume、S3/HDFS、kinesis、Twitter等數據源讀取數據進行實時分析

例：從 Kafka 讀取流數據，進行實時處理。

由於讀取Kafka流式數據，我們需要模擬kafka流。

參考Kafka文檔

核心文件 KafkaApplication.java

application.yml

以上，我們向Kafka服務器的 topic 為 saprk 上不斷發送數據以模擬數據流。

現在，啟動程序開始模擬數據流

復用上例中的目錄結構，也可以新建壹個 sbt 項目。

新建文件 StreamDataSparkDemo.scala

以上，我們從Kafaka服務器讀取壹個 topic 為 spark 的流，然後進行展示。

運行程序，輸出如下：

取出數據之後，就可以用於實時分析了。

假設topic spark 為新註冊的用戶信息，我們可以統計新用戶的每實時註冊量，以及階段內新註冊用戶性別比例。

在 StreamDataSparkDemo.scala 中修改

<未完待續...>