要開始接觸大數據,需要學習以下知識點:
先附上自己總結的學習路線圖。
1.Java編程技術
Java編程技術是大數據學習的基礎。Java是壹種具有高度跨平臺能力的強類型語言。它可以編寫桌面應用程序、Web應用程序、分布式系統和嵌入式系統應用程序等。是大數據工程師最喜歡的編程工具。所以想要學好大數據,掌握Java基礎是必不可少的。
2.Linux命令
大數據開發通常在Linux環境下進行。與Linux操作系統相比,Windows操作系統是壹個封閉的操作系統,開源的大數據軟件非常有限。所以想從事大數據開發,需要掌握Linux的基本操作命令。
3、Hadoop
Hadoop是大數據開發的重要框架,其核心是HDFS和MapReduce。HDFS為海量數據提供存儲,MapReduce為海量數據提供計算。所以需要掌握Hadoop集群、Hadoop集群管理、YARN和Hadoop高級管理等相關技術和操作!
4、蜂巢
Hive是基於Hadoop的數據倉庫工具,可以將結構化的數據文件映射到壹個數據庫表中,提供簡單的sql查詢功能,將sql語句轉換成MapReduce任務運行。非常適合數據倉庫的統計分析。Hive需要掌握它的安裝、應用和高級操作。
5.Avro和Protobuf
Avro和Protobuf都是數據序列化系統,可以提供豐富的數據結構類型,非常適合數據存儲。他們還可以在不同的語言之間交換數據格式。學習大數據,需要掌握它的具體用法。
6、動物園管理員
ZooKeeper是Hadoop和Hbase的重要組成部分,是為分布式應用提供壹致服務的軟件。提供的功能包括:配置維護、域名服務、分布式同步、組件服務等。在大數據開發中,要掌握ZooKeeper的常用命令及其功能的實現方法。
7、HBase
HBase是壹種分布式、面向列的開源數據庫,不同於壹般的關系數據庫,更適合於非結構化數據存儲。這是壹個高度可靠、高性能、面向列且可擴展的分布式存儲系統。大數據開發需要掌握HBase的基礎知識、應用、架構和高級用法。
鳳凰城
Phoenix是用Java編寫的開源SQL引擎,基於JDBC API運行HBase。它具有動態列、哈希加載、查詢服務器、跟蹤、事務、自定義函數、二級索引、命名空間映射、數據收集、行時間戳列、分頁查詢、跳過查詢、視圖和多租戶等特性。要掌握大數據開發的原理和用法。
9、Redis
Redis是壹個鍵值存儲系統,很大程度上彌補了memcached等鍵/值存儲的不足,在某些場合可以對關系數據庫起到很好的補充作用。它提供了Java、C/C、C#、PHP、JavaScript、Perl、Object-C、Python、Ruby、Erlang等客戶端。很好用,大數據開發需要掌握Redis的安裝。
10、水槽
Flume是壹個高度可用、可靠的分布式系統,用於收集、聚合和傳輸海量日誌。Flume支持在日誌系統中定制各種數據發送器來收集數據;同時,Flume提供了簡單處理數據並將其寫入各種數據接收者的能力。大數據開發需要掌握其安裝、配置及相關使用方法。
11、SSM
SSM框架是Spring、SpringMVC和MyBatis的集成,常用作簡單數據源的web項目的框架。大數據開發需要分別掌握Spring、SpringMVC和MyBatis,然後使用SSM進行集成。
12、卡夫卡
Kafka是壹個高吞吐量的分布式發布和訂閱消息系統。其在大數據開發和應用方面的目的是通過Hadoop # 039的並行加載機制,並通過集群提供實時消息。大數據開發需要掌握Kafka架構原理,各組件的功能和用法以及相關功能的實現。
13、標量
Scala是壹種多範式編程語言,大數據開發的重要框架Spark就是用Scala語言設計的。要學好Spark framework,有Scala基礎是必不可少的。所以大數據開發需要掌握Scala編程的基礎知識!
14、火花
Spark是壹個快速通用的計算引擎,專為大規模數據處理而設計。它為管理各種數據集和數據源的大數據處理需求提供了全面統壹的框架。大數據開發需要掌握spark、SparkJob、Spark RDD、Spark作業部署和資源分配、Spark shuffle、Spark內存管理、Spark廣播變量、Spark SQL、Spark Streaming和Spark ML的基礎知識。
阿茲卡班
Azkaban是壹個批處理工作流任務調度程序,可用於在工作流中以特定順序運行壹組作業和進程。阿茲卡班可以用來完成大數據的任務調度。大數據的開發需要掌握阿茲卡班的相關配置和語法規則。
16.Python和數據分析
Python是壹種面向對象的編程語言,庫豐富,使用簡單,應用廣泛。也用於大數據領域,主要用於數據采集、數據分析和數據可視化。所以在大數據開發中學習壹些Python知識是很有必要的。
王者之心2點擊試玩