這裏有兩種方法: 1. 分析ajax腳本,找到對應的加載數據的js腳本,然後分析其邏輯,壹般也是生成壹個http請求,然後這個http請求壹般只返回jason格式的數據。妳可以通過代碼模擬這個請求來獲取數據。但是這種辦法比較老土,也很麻煩需要妳研究js代碼的邏輯,妳如果不會寫代碼就比較麻煩。當然有壹些fiddler之類的網頁通信抓包分析工具可以幫妳壹些忙。
2. 使用現在比較主流的智能采集軟件如八爪魚,需要支持瀏覽器和可視化采集,這樣軟件會自動模擬人的操作完成所有工作,包括運行界面的腳本,最後妳會在界面上看到數據,就和上網看網頁沒任何區別,但是此類工具可以自動提取妳在網頁上看到的數據。用鼠標點點就提取到數據了,這種方式適合不懂代碼的人。
3. 當然妳也可以上網上找壹下別人都是怎麽采集微博數據的。然後拿別人的勞動成果來用,這個就更簡單。比如,我按照妳的要求在數多多上搜索微博數據采集規則就出來好多。截圖如下:可以看到有微博賬號,話題,評論,明星等等,別人也都詳細寫了如何用這些東西。