當前位置:編程學習大全網 - 編程語言 - 大數據具體是學習什麽內容呢?主要框架是什麽

大數據具體是學習什麽內容呢?主要框架是什麽

首先,學習大數據是需要有java,python和R語言的基礎。

1) Java學習到什麽樣的程度才可以學習大數據呢?

java需要學會javaSE即可。javaweb,javaee對於大數據用不到。學會了javase就可以看懂hadoop框架。

2) python是最容易學習的,難易程度:python java Scala 。

python不是比java更直觀好理解麽,因為會了Python 還是要學習java的,妳學會了java,再來學習python會很簡單的,壹周的時間就可以學會python。

3) R語言也可以學習,但是不推薦,因為java用的人最多,大數據的第壹個框架Hadoop,底層全是Java寫的。就算學會了R還是看不懂hadoop。

java在大數據中的作用是構成大數據的語言,大數據的第壹個框架Hadoop以及其他大數據技術框架,底層語言全是Java寫的,所以推薦首選學習java

大數據開發學習路線:

第壹階段:Hadoop生態架構技術

1、語言基礎

Java:多理解和實踐在Java虛擬機的內存管理、以及多線程、線程池、設計模式、並行化就可以,不需要深入掌握。

Linux:系統安裝、基本命令、網絡配置、Vim編輯器、進程管理、Shell腳本、虛擬機的菜單熟悉等等。

Python:基礎語法,數據結構,函數,條件判斷,循環等基礎知識。

2、環境準備

這裏介紹在windows電腦搭建完全分布式,1主2從。

VMware虛擬機、Linux系統(Centos6.5)、Hadoop安裝包,這裏準備好Hadoop完全分布式集群環境。

3、MapReduce

MapReduce分布式離線計算框架,是Hadoop核心編程模型。

4、HDFS1.0/2.0

HDFS能提供高吞吐量的數據訪問,適合大規模數據集上的應用。

5、Yarn(Hadoop2.0)

Yarn是壹個資源調度平臺,主要負責給任務分配資源。

6、Hive

Hive是壹個數據倉庫,所有的數據都是存儲在HDFS上的。使用Hive主要是寫Hql。

7、Spark

Spark 是專為大規模數據處理而設計的快速通用的計算引擎。

8、SparkStreaming

Spark Streaming是實時處理框架,數據是壹批壹批的處理。

9、SparkHive

Spark作為Hive的計算引擎,將Hive的查詢作為Spark的任務提交到Spark集群上進行計算,可以提高Hive查詢的性能。

10、Storm

Storm是壹個實時計算框架,Storm是對實時新增的每壹條數據進行處理,是壹條壹條的處理,可以保證數據處理的時效性。

11、Zookeeper

Zookeeper是很多大數據框架的基礎,是集群的管理者。

12、Hbase

Hbase是壹個Nosql數據庫,是高可靠、面向列的、可伸縮的、分布式的數據庫。

13、Kafka

kafka是壹個消息中間件,作為壹個中間緩沖層。

14、Flume

Flume常見的就是采集應用產生的日誌文件中的數據,壹般有兩個流程。

壹個是Flume采集數據存儲到Kafka中,方便Storm或者SparkStreaming進行實時處理。

另壹個流程是Flume采集的數據存儲到HDFS上,為了後期使用hadoop或者spark進行離線處理。

第二階段:數據挖掘算法

1、中文分詞

開源分詞庫的離線和在線應用

2、自然語言處理

文本相關性算法

3、推薦算法

基於CB、CF,歸壹法,Mahout應用。

4、分類算法

NB、SVM

5、回歸算法

LR、DecisionTree

6、聚類算法

層次聚類、Kmeans

7、神經網絡與深度學習

NN、Tensorflow

以上就是學習Hadoop開發的壹個詳細路線,如果需要了解具體框架的開發技術,可咨詢加米谷大數據老師,詳細了解。

學習大數據開發需要掌握哪些技術呢?

(1)Java語言基礎

Java開發介紹、熟悉Eclipse開發工具、Java語言基礎、Java流程控制、Java字符串、Java數組與類和對象、數字處理類與核心技術、I/O與反射、多線程、Swing程序與集合類

(2)HTML、CSS與Java

PC端網站布局、HTML5+CSS3基礎、WebApp頁面布局、原生Java交互功能開發、Ajax異步交互、jQuery應用

(3)JavaWeb和數據庫

數據庫、JavaWeb開發核心、JavaWeb開發內幕

Linux&Hadoop生態體系

Linux體系、Hadoop離線計算大綱、分布式數據庫Hbase、數據倉庫Hive、數據遷移工具Sqoop、Flume分布式日誌框架

分布式計算框架和Spark&Strom生態體系

(1)分布式計算框架

Python編程語言、Scala編程語言、Spark大數據處理、Spark—Streaming大數據處理、Spark—Mlib機器學習、Spark—GraphX 圖計算、實戰壹:基於Spark的推薦系統(某壹線公司真實項目)、實戰二:新浪網(www.sina.com.cn)

(2)storm技術架構體系

Storm原理與基礎、消息隊列kafka、Redis工具、zookeeper詳解、大數據項目實戰數據獲取、數據處理、數據分析、數據展現、數據應用

大數據分析—AI(人工智能)Data

Analyze工作環境準備&數據分析基礎、數據可視化、Python機器學習

以上的回答希望對妳有所幫助

  • 上一篇:ASP的介紹``
  • 下一篇:我是事業工勤崗,能否轉管理或專技崗?需要什麽條件?
  • copyright 2024編程學習大全網