參加大數據開發培訓需要掌握以下幾個方向的內容。
階段壹:JavaSE基礎核心
1、深入理解Java面向對象思想
2、掌握開發中常用基礎API
3、熟練使用集合框架、IO流、異常
4、能夠基於JDK8開發
階段二:Hadoop生態體系架構
1、Linux系統的安裝和操作
2、熟練掌握Shell腳本語法
3、Idea、Maven等開發工具的使用
4、Hadoop組成、安裝、架構和源碼深度解析,以及API的熟練使用
5、Hive的安裝部署、內部架構、熟練使用其開發需求以及企業級調優
6、Zookeeper的內部原理、選舉機制以及大數據生態體系下的應
階段三:Spark生態體系架構
1、Spark的入門安裝部署、Spark Core部分的基本API使用熟練、RDD編程進階、累加器和廣播變量的使用和原理掌握、Spark SQL的編程掌握和如何自定義函數、Spark的內核源碼詳解(包括部署、啟動、任務劃分調度、內存管理等)、Spark的企業級調優策略
2、DophineScheduler的安裝部署,熟練使用進行工作流的調度執行
3、了解數據倉庫建模理論,充分熟悉電商行業數據分析指標體系,快速掌握多種大數據技術框架,了解認識多種數據倉庫技術模塊
4、HBase和Phoenix的部署使用、原理架構講解與企業級優化
5、開發工具Git&Git Hub的熟練使用
6、Redis的入門、基本配置講解、jedis的熟練掌握
7、ElasticSearch的入門安裝部署及調優
8、充分理解用戶畫像管理平臺的搭建及使用、用戶畫像系統的設計思路,以及標簽的設計流程及應用,初步了解機器學習算法
9、獨立構建功能完全的企業級離線數據倉庫項目,提升實戰開發能力,加強對離線數據倉庫各功能模塊的理解認知,實現多種企業實戰需求,累積項目性能調優經驗
階段四:Flink生態體系架構
1、熟練掌握Flink的基本架構以及流式數據處理思想,熟練使用Flink多種Soure、Sink處理數據,熟練使用基本API、Window API 、狀態函數、Flink SQL、Flink CEP復雜事件處理等
2、使用Flink搭建實時數倉項目,熟練使用Flink框架分析計算各種指標
3、ClickHouse安裝、使用及調優
4、項目實戰。貼近大數據的實際處理場景,多維度設計實戰項目,能夠更廣泛的掌握大數據需求解決方案,全流程參與項目打造,短時間提高學生的實戰水平,對各個常用框架加強認知,迅速累積實戰經驗
5、可選掌握推薦和機器學習項目,熟悉並使用系統過濾算法以及基於內容的推薦算法等
6、采用阿裏雲平臺全套大數據產品重構電商項目,熟悉離線數倉、實時指標的阿裏雲解決方案
階段五:就業指導
1、從技術和項目兩個角度按照企業面試、
2、熟悉CDH在生產環境中的使用
3、簡歷指導
以上為大數據培訓所要掌握的內容,當然也可以嘗試自學的。