什么是jsoup
1 简介
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
2 jsoup的主要功能
- 从一个URL,文件或字符串中解析HTML
- 使用DOM或CSS选择器来查找、取出数据
- 可操作HTML元素、属性、文本
注意:jsoup是基于MIT协议发布的,可放心使用于商业项目。
3 示例
示例1 获取维基百科首页新闻
public void getWikiNews() throws IOException {
Document doc = Jsoup.connect("https://en.wikipedia.org/").get();
log.info(doc.title());
Elements newsHeadlines = doc.select("#mp-itn b a");
for (Element headline : newsHeadlines) {
log.info("抓取到页面信息:{}---{}", headline.attr("title"), headline.absUrl("href"));
}
}
示例2 获取微博热搜前50
public void getTodayTop() throws IOException {
Document doc = Jsoup.connect("https://tophub.today/").get();
log.info(doc.title());
Element weiboTopElement = doc.getElementById("node-1");
Elements tops = weiboTopElement.select("a");
for (Element top : tops) {
log.info("{}--{}", top.text(), top.absUrl("href"));
}
}

浙公网安备 33010602011771号