Jsoup解析html入门1
2016-07-20 09:59 toFind_U 阅读(69) 评论(0) 收藏 举报解析和遍历一个HTML文档
一个文档的对象模型:
* 文档由多个Elements和TextNodes组成 (以及其它辅助nodes:详细可查看:nodes package tree).
* 其继承结构如下:Document继承Element继承Node. TextNode继承 Node.
* 一个Element包含一个子节点集合,并拥有一个父Element。他们还提供了一个唯一的子元素过滤列表。
如何解析一个HTML文档:
String html = "<html><head><title>First parse</title></head>"+ "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);
从一个URL加载一个Document
Document doc = Jsoup.connect("http://example.com/").get();
String title = doc.title();
- 使用 Jsoup.connect(String url)方法从一个网站获取和解析一个HTML文档,并查找其中的相关数据。
说明:
connect(String url) 方法创建一个新的 Connection, 和 get() 取得和解析一个HTML文件。如果从该URL获取HTML时发生错误,便会抛出 IOException,应适当处理。
浙公网安备 33010602011771号