代码改变世界

Jsoup解析html入门1

2016-07-20 09:59  toFind_U  阅读(69)  评论(0)    收藏  举报

解析和遍历一个HTML文档

一个文档的对象模型:
* 文档由多个Elements和TextNodes组成 (以及其它辅助nodes:详细可查看:nodes package tree).
* 其继承结构如下:Document继承Element继承Node. TextNode继承 Node.
* 一个Element包含一个子节点集合,并拥有一个父Element。他们还提供了一个唯一的子元素过滤列表。
如何解析一个HTML文档:

String html = "<html><head><title>First parse</title></head>"+ "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);

从一个URL加载一个Document

Document doc = Jsoup.connect("http://example.com/").get();
String title = doc.title();
  • 使用 Jsoup.connect(String url)方法从一个网站获取和解析一个HTML文档,并查找其中的相关数据。
    说明:
    connect(String url) 方法创建一个新的 Connection, 和 get() 取得和解析一个HTML文件。如果从该URL获取HTML时发生错误,便会抛出 IOException,应适当处理。

原文链接:http://www.open-open.com/jsoup/