第壹步,配置spark環境,包括linux系統的安裝,java、ssh、Hadoop、Scala、spark的安裝,環境變量的設置。雖然簡單,但對於初學者,尤其是沒有用過linux系統的人來說,仍然是壹個挑戰。如果妳錯過了壹些細節,妳就會犯錯誤。
第二步:java學習。懂java的可以忽略,不懂的還是可以學java的。雖然可以跳過java直接學習Scala,但是Scala畢竟和java關系密切,教科書上經常拿Scala和Java做比較。只要掌握Java的基礎就行了,最差的就是妳能看懂。。
第三步:Hadoop學習。HDFS,磁共振計算框架,必須知道。Spark還需要獲得HDFS的數據。只有學習Hadoop,才能知道它的缺點,才能理解spark的優點,理解Hadoop為什麽會死。hdfs中的操作說明也必須掌握。如果能寫MapReduce程序就太好了。我還不能。。。)
第四步:Scala學習。函數式編程,重點這個。壹些特質的使用會讓妳了解java。這些都是小菜,本質相同,表達方式不同。因此...再次強調學習JAVA。對我來說,我不需要深入學習Scala編程,只要我能理解它並使用Scala操作RDD就可以了。後來沒學過復雜的高級編程,以後用。
第五步:火花學習。當然,學習spark最好的方法是閱讀官方文檔、源代碼、博客(博客太簡單,不能特別深入)、RDD論文、如何安排作業等等。對於英語水平不高,閱讀公文略顯吃力的童鞋來說,推薦壹家研究所的spark公文中文翻譯還是很全的。不建議買國產書看,只想看杜娘做參考,所以。英語也需要提高。