jsoup

Document doc = Jsoup.connect("http://example.com/").get();#获得该网页的html文件并解析

String html = "First parse"

  • "

    Parsed HTML into a doc.

    ";
    Document doc = Jsoup.parse(html);#解析一个html文件

File input = new File("/tmp/input.html");#本机的html文件
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");#第三个参数用于解决文件中URLs是相对路径的问题。如果不需要可以传入一个空的字符串。

文档由多个Elements和TextNodes组成 (以及其它辅助nodes:详细可查看:nodes package tree).
其继承结构如下:Document继承Element继承Node. TextNode继承 Node.
一个Element包含一个子节点集合,并拥有一个父Element。他们还提供了一个唯一的子元素过滤列表。

posted @ 2018-05-26 23:23  blog_hfg  阅读(112)  评论(0)    收藏  举报