jsoup

Document doc = Jsoup.connect("http://example.com/").get();#获得该网页的html文件并解析

String html = "First parse"

"
Parsed HTML into a doc.
";
Document doc = Jsoup.parse(html);#解析一个html文件

File input = new File("/tmp/input.html");#本机的html文件
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");#第三个参数用于解决文件中URLs是相对路径的问题。如果不需要可以传入一个空的字符串。

文档由多个Elements和TextNodes组成 (以及其它辅助nodes：详细可查看：nodes package tree).
其继承结构如下：Document继承Element继承Node. TextNode继承 Node.
一个Element包含一个子节点集合，并拥有一个父Element。他们还提供了一个唯一的子元素过滤列表。

posted @ 2018-05-26 23:23 blog_hfg 阅读(112) 评论(0) 收藏举报

刷新页面返回顶部

blog_hfg

jsoup

公告