使用IDE新建Scala 或 Java 工程,確保項目結構符合 Maven 推薦的項目結構。
以IDEA為例:
從靜態數據源(Parquet,Json,CVS,JDBC,Hive,RDDs)讀取數據,運行分析
再 resource 目錄構建壹個 Json 數據源 data.json :
新建 Static Data Spark Demo.scala :
以上,我們擬對數據進行展示和基本的篩選工作(age > 10)
開啟調試,可以看到 log 中Spark執行了 3 個 Job ,並已經正確輸出了預期的結果。
接下來就可以根據需求進行更復雜的數據處理操作
從Kafka、Flume、S3/HDFS、kinesis、Twitter等數據源讀取數據進行實時分析
例:從 Kafka 讀取流數據,進行實時處理。
由於讀取Kafka流式數據,我們需要模擬kafka流。
參考Kafka文檔
核心文件 KafkaApplication.java
application.yml
以上,我們向Kafka服務器的 topic 為 saprk 上不斷發送數據以模擬數據流。
現在,啟動程序開始模擬數據流
復用上例中的目錄結構,也可以新建壹個 sbt 項目。
新建文件 StreamDataSparkDemo.scala
以上,我們從Kafaka服務器讀取壹個 topic 為 spark 的流,然後進行展示。
運行程序,輸出如下:
取出數據之後,就可以用於實時分析了。
假設topic spark 為新註冊的用戶信息,我們可以統計新用戶的每實時註冊量,以及階段內新註冊用戶性別比例。
在 StreamDataSparkDemo.scala 中修改
<未完待續...>