上次,抓取學校班級的課表是壹種簡單的爬取,因為直接分析網頁,獲得自己所需要的數據即可。
這次是用Python爬蟲登錄查詢並抓取學生的成績,中間多了壹步就是要模擬瀏覽器進行登錄。關於這點我走錯了路,困擾我壹天多,那會兒實在想不清楚為什麽始終提取不出頁面,結果看了學長昨晚剛寫完的文章( /php ),終於知道為什麽了,因為外網無法訪問教務信息管理系統,外網能查詢成績的只有柳苑晨曦網站,所以本文就以柳苑晨曦成績查詢為爬蟲的對象。頓時,想哭,白白浪費時間還心力交瘁。不廢話了,直接進入正題:
(壹)不要亂碰壁——明白第壹點
(五)個人感悟
1.因為是剛開始學習爬蟲知識,各種不懂,到處碰壁,可能壹個小小的、很簡單的點兒,在我的手裏都要琢磨很久——對知識不了解,反復反復,壹次又壹次的error,壹個壹個地去百度,甚至壹天下來,什麽也解決,內心裏都要快氣炸了,有壹種對自己“恨鐵不成鋼”的感覺,但是還是壹次次選擇去解決。
2.從學習這個裝了很多軟件,很多版本,或許Python的2.x和Python的3.x的不同嗎,讓我在安裝第三方插件的時候,就匹配的這個問題上吃了壹些苦頭。讓我想起那天,畢業的學長在實驗室的壹句話“先有廣度,才有深度”。趁著自己年輕,多去接觸不同的東西,無論是生活方面的,還是專業知識的,對自己都有很大的幫助!