Jsoup解析html入门1

2016-07-20 09:59 toFind_U 阅读(69) 评论(0) 收藏举报

解析和遍历一个HTML文档

一个文档的对象模型：
* 文档由多个Elements和TextNodes组成 (以及其它辅助nodes：详细可查看：nodes package tree).
* 其继承结构如下：Document继承Element继承Node. TextNode继承 Node.
* 一个Element包含一个子节点集合，并拥有一个父Element。他们还提供了一个唯一的子元素过滤列表。
如何解析一个HTML文档：

String html = "<html><head><title>First parse</title></head>"+ "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);

从一个URL加载一个Document

Document doc = Jsoup.connect("http://example.com/").get();
String title = doc.title();

使用 Jsoup.connect(String url)方法从一个网站获取和解析一个HTML文档，并查找其中的相关数据。
说明：
connect(String url) 方法创建一个新的 Connection, 和 get() 取得和解析一个HTML文件。如果从该URL获取HTML时发生错误，便会抛出 IOException，应适当处理。

原文链接：http://www.open-open.com/jsoup/

刷新页面返回顶部

toFind_U

Jsoup解析html入门1

解析和遍历一个HTML文档

从一个URL加载一个Document

原文链接：http://www.open-open.com/jsoup/

About