网络爬虫jsoup使用

1、简介

　　1、jsoup 是一款Java 的HTML解析器

2、jsoup主要功能

　　1、从一个URL，文件或字符串中解析HTML

　　2、使用DOM或CSS选择器来查找、取出数据

　　3、可操作HTML元素、属性、文本

3、使用

　　1、从一个url中加载Document对象

　　　　Document document = Jsoup.connect("url").get();

　　2、使用选择器语法来查找元素

　　　　String html = String.valueOf(document.select("div[id='value']"));

Selector选择器组合使用

el#id: 元素+ID，比如： div#logo
el.class: 元素+class，比如： div.masthead
el[attr]: 元素+class，比如： a[href]
任意组合，比如：
a[href].highlight
ancestor child: 查找某个元素下子元素，比如：可以用.body p 查找在"body"元素下的所有 p元素
parent > child: 查找某个父元素下的直接子元素，比如：可以用div.content > p 查找 p 元素，也可以用body > * 查找body标签下所有直接子元素
siblingA + siblingB: 查找在A元素之前第一个同级元素B，比如：div.head + div
siblingA ~ siblingX: 查找A元素之前的同级X元素，比如：h1 ~ p
el, el, el:多个选择器组合，查找匹配任一选择器的唯一元素，例如：div.masthead, div.logo

posted @ 2021-01-18 11:06 懂得归零阅读(219) 评论(0) 收藏举报

刷新页面返回顶部

懂得归零

网络爬虫jsoup使用

公告