當前位置:編程學習大全網 - 源碼下載 - java怎樣讀取html文件

java怎樣讀取html文件

java可以使用jsoup、htmlparser等工具進行html的讀取和解析,以下是詳細說明:

1、jsoup 是壹款 Java 的HTML 解析器,可直接解析某個URL地址、HTML文本內容。它提供了壹套非常省力的API,可通過DOM,CSS以及類似於JQuery的操作方法來取出和操作數據。據說它是基於MIT協議發布的。

jsoup的主要功能如下:

從壹個URL,文件或字符串中解析HTML;

使用DOM或CSS選擇器來查找、取出數據;

可操作HTML元素、屬性、文本;

示例代碼:

Document doc = Jsoup.parse(input, "UTF-8", "");

Element content = doc.getElementById("content");

Elements links = content.getElementsByTag("a");

for (Element link : links) {

String linkHref = link.attr("href");

String linkText = link.text();

}

2、htmlparser是壹個純的java寫的html解析的庫,它不依賴於其它的java庫文件,主要用於改造或提取html。它能超高速解析html,而且不會出錯。現在htmlparser最新版本為2.0。 據說htmlparser就是目前最好的html解析和分析的工具。  無論妳是想抓取網頁數據還是改造html的內容,用了htmlparser絕對會忍不住稱贊。

在線文檔: ");

NodeList list = parser.parse (null);

Node node = list.elementAt (0);

NodeList sublist = node.getChildren ();

System.out.println (sublist.size ());

  • 上一篇:施工圖設計的內容和意義介紹
  • 下一篇:CAD的裁剪技巧
  • copyright 2024編程學習大全網