1、要爬蟲壹個html數據在之前可以使用HtmlParser,見鏈接blogs.com/loveyakamoz/archive/2011/07/27/2118937.html 但自從jsoup誕生後,使用比HtmlParser更方面。此處就是利用jsoup解析html的,需要加載lib文件夾下的jsoup-1.7.2.jar、jsoup-1.7.2-sources.jar,自己add to build path即可。後者是源碼,可以查看,真正的包就第壹個。
2、jsoup可以直接打開壹個網頁url,此處為了方便已經寫了從url獲取string類型的html代碼了。所以可以直接利用Document doc = Jsoup.parse(htmlStr); 得到Document類。
以業界新聞為例,/news/1,按快捷鍵ctrl+u查看其源碼,搜索關鍵字unit可以看到:
每壹個新聞就是以關鍵字“unit”來標識的,第壹頁壹***有10條新聞所以有10個unit。Elements units = doc.getElementsByClass("unit"); 得到這10個新聞item的集合。
3、接下來就是對壹個新聞提取具體信息