怎麽爬取新浪微博當前頁面的內容

微博這壹類的主流網站現在都普遍采用ajax加載數據，也就是如果妳通過傳統的爬蟲方式post壹個url或者請求參數過去，接受響應的字符串，也就是響應的html代碼，會發現裏面沒有妳要的數據，這是因為這個代碼裏面有壹些js腳本，等到瀏覽器顯示這個網頁的時候，這些js就會運行，從而顯示妳想要看的數據，ajax還用來在妳操作的時候不刷新網頁，只加載壹部分頁面數據，如果妳發現壹個網站在妳操作的時候只有頁面部分數據在變動，網址不變，就是ajax，這個很容易判斷。另外，如果妳發現網頁瀏覽器顯示網頁加載完畢，然後頁面上還有壹些數據正在加載，這種數據也屬於ajax異步加載的。判斷好之後，就要采用能處理ajax的方式抓取數據了。

這裏有兩種方法： 1. 分析ajax腳本，找到對應的加載數據的js腳本，然後分析其邏輯，壹般也是生成壹個http請求，然後這個http請求壹般只返回jason格式的數據。妳可以通過代碼模擬這個請求來獲取數據。但是這種辦法比較老土，也很麻煩需要妳研究js代碼的邏輯，妳如果不會寫代碼就比較麻煩。當然有壹些fiddler之類的網頁通信抓包分析工具可以幫妳壹些忙。

2. 使用現在比較主流的智能采集軟件如八爪魚，需要支持瀏覽器和可視化采集，這樣軟件會自動模擬人的操作完成所有工作，包括運行界面的腳本，最後妳會在界面上看到數據，就和上網看網頁沒任何區別，但是此類工具可以自動提取妳在網頁上看到的數據。用鼠標點點就提取到數據了，這種方式適合不懂代碼的人。

3. 當然妳也可以上網上找壹下別人都是怎麽采集微博數據的。然後拿別人的勞動成果來用，這個就更簡單。比如，我按照妳的要求在數多多上搜索微博數據采集規則就出來好多。截圖如下：可以看到有微博賬號，話題，評論，明星等等，別人也都詳細寫了如何用這些東西。

上一篇:網絡安全管理的安管技術

下一篇:HDMI有什麽作用？

高手救命！中了fun.xls.exe病毒,跪求專殺

現代交換原理中網絡模塊的三個部分是什麽？