jsoup
Document doc = Jsoup.connect("http://example.com/").get();#获得该网页的html文件并解析
String html = "
- "
Parsed HTML into a doc.
";
Document doc = Jsoup.parse(html);#解析一个html文件
File input = new File("/tmp/input.html");#本机的html文件
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");#第三个参数用于解决文件中URLs是相对路径的问题。如果不需要可以传入一个空的字符串。
文档由多个Elements和TextNodes组成 (以及其它辅助nodes:详细可查看:nodes package tree).
其继承结构如下:Document继承Element继承Node. TextNode继承 Node.
一个Element包含一个子节点集合,并拥有一个父Element。他们还提供了一个唯一的子元素过滤列表。