1、jsoup 是壹款 Java 的HTML 解析器,可直接解析某個URL地址、HTML文本內容。它提供了壹套非常省力的API,可通過DOM,CSS以及類似於JQuery的操作方法來取出和操作數據。據說它是基於MIT協議發布的。
jsoup的主要功能如下:
從壹個URL,文件或字符串中解析HTML;
使用DOM或CSS選擇器來查找、取出數據;
可操作HTML元素、屬性、文本;
示例代碼:
Document doc = Jsoup.parse(input, "UTF-8", "");
Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
String linkHref = link.attr("href");
String linkText = link.text();
}
2、htmlparser是壹個純的java寫的html解析的庫,它不依賴於其它的java庫文件,主要用於改造或提取html。它能超高速解析html,而且不會出錯。現在htmlparser最新版本為2.0。 據說htmlparser就是目前最好的html解析和分析的工具。 無論妳是想抓取網頁數據還是改造html的內容,用了htmlparser絕對會忍不住稱贊。
在線文檔: ");
NodeList list = parser.parse (null);
Node node = list.elementAt (0);
NodeList sublist = node.getChildren ();
System.out.println (sublist.size ());