看著剛進實驗室的師弟師妹們的迷茫,雖然我和他們有過壹些零散的對話,但都不夠系統。所以根據自己的經驗給出壹些學習數據挖掘的建議,可以根據自己的情況具體問題具體分析,作為參考。希望在上壹屆的基礎上更深更遠。
I .研究生院和數據挖掘的基礎
首先介紹壹下大家關心的壹些問題,包括我們組的研究方向是什麽,論文相關問題,大數據和工作相關問題,上海戶口等。
1.我們的研究方向是什麽?
我們組的研究方向是數據挖掘,本文的研究方向是推薦算法。註意大的研究方向,研究方向和論文工作方向的區別和聯系。
2.紙張相關問題
研究生難免會思考壹個問題,讀研的意義是什麽?我個人認為讀研最大的意義是鍛煉我系統嚴謹的分析思維能力。導師給出論文的研究方向後,如何確立更詳細的研究方向,如何檢索資料,如何閱讀英文論文,如何提出自己的創新點,如何做實驗,如何寫論文,如何修改論文,如何提交論文,如何退課,如果是國際會議如何用英文做口頭報告,如何與同行交流,這些都是需要自己考慮的問題。
3.大數據和工作相關問題
數據挖掘屬於大數據專業嗎?它當然屬於。現在用大數據找工作還是比較理想的。關鍵是學哪些課程?之前給妳推薦過很多書,但是效果恰恰相反,因為太多了,看不完,也不知道看的順序。我只是淺嘗輒止,研究生最後壹本書都沒看完。
(1)最低保底書
不管妳以後做什麽,掌握壹門編程語言,壹個數據庫,數據結構,算法都是很有必要的。
高性能MySQL
數據結構和算法分析:用Java語言描述
算法:/subject/19952400/
(2)Python和機器學習
集體智能編程
社交網站的數據挖掘與分析
數據挖掘:概念和技術
Python官方文檔:/javase/8/docs/api/
Java EE:/javaee/6/api/
(4)Hadoop和Spark書籍
大數據日誌:架構和算法
Hadoop權威指南
大數據引發企業級戰鬥
Scala編程
Hadoop官網:http://spark.apache.org/
星火官網:http://spark.apache.org/
Scala官網:http://www.scala-lang.org/
描述:認準目標,耐心,壹步壹步往前走。看完上面推薦的書,數據挖掘基本就是入門。
4.上海戶口問題
上海戶口屬於積分制。如果妳想在校期間拿到,那麽唯壹的辦法就是參數年度研究生數據建模競賽,並獲獎。中獎比例還是很高的。其實如果妳學好Python,買壹本數學建模的書,看幾篇近幾年的獲獎論文,在競賽期間研究壹個題目,寫壹篇好論文,基本上就能得獎了。
2.高級數據挖掘
數據挖掘涉及的方向很多,但通常從三個方向研究:數理統計、數據庫與數據倉庫、機器學習。當我想學壹個方向的時候,我最想做的就是讓別人給我列壹個書單。因為我也會列壹個書單讓妳慢慢研究。
1.數理統計
純數學(1):復變函數,實變函數,泛函分析,拓撲學,積分變換,微分流形,常微分方程,偏微分方程等。
(2)應用數學:離散數學(集合、邏輯、組合、代數、圖論、數論)、具體數學、張量分析、數值計算、矩陣論、逼近論、運籌學、凸優化、小波變換、時間序列分析等。
(3)概率:概率論、測度論、隨機過程等。
(4)統計學:統計學、多元統計、貝葉斯統計、統計模擬、非參數統計、參數統計等。
2.數據庫和數據倉庫
數據庫系統的概念
數據庫系統實現
數據倉庫
分布式系統:概念和設計
3.機器學習
溝通原則;數據挖掘;機器學習;統計學習;自然語言處理;信息檢索;模式識別;人工智能;圖形圖像;機器視覺;語音識別;機器人等等。(這方面的經典書籍妳都可以看完,後面再補充。)
4.其他書籍
(1)Linux
(2)網絡原理,編譯原理,組合原理,
(3)JVM
(4)統壹建模語言
(5)軟件工程
(6)設計模式
(7)雲計算和Docker
(8)並行計算
(9)需求分析
三。學習和方法
作為壹名軟件工程師,您需要掌握如下工具:
(1)博客
除了學習,還要思考總結,把沒有忘記的記憶緩存連載成文字,記錄在博客裏。
(2)語言
大數據常用語言有Java、Scala、Python。如果壹定要選擇精通壹門語言,那就自己選擇Scala,同時深入學習JVM。(3)開發工具
Java和Scala的開發我選擇IntelliJ IDEA,Python的開發選擇Eclipse。
(4)GitHub
堅持每天編程,積極參與開源項目。
(5)Linux
工作中常用Ubuntu 12.04 LTS。
由於時間原因,以上總結還是比較粗糙的,是第壹個版本,後面會繼續深入總結和完善。