首先,妳去爬取壹個網站,
妳會清楚這個網站是屬於什麽類型的網站(新聞,論壇,貼吧等等)。
妳會清楚妳需要哪部分的數據。
妳需要去想需要的數據妳將如何編寫表達式去解析。
妳會碰到各種反爬措施,無非就是各種百度各種解決。當爬取成本高於數據成本,妳會選擇放棄。
妳會利用妳所學各種語言去解決妳將要碰到的問題,利用各種語言的client組件去請求妳想要爬取的URL,獲取到HTML,利用正則,XPATH去解析妳想要的數據,然後利用sql存儲各類數據庫。