SpringBoot 解析 Html

使用JSOUP来解析Html网页

从网上搜了搜看了下 大部分的排版都不是特别好!!! 所以我从新写一个。

点击进入JSOUP的官网

jsoup:Java HTML 解析器

jsoup是一个用于处理真实世界 HTML 的 Java 库。它使用最好的 HTML5 DOM 方法和 CSS 选择器提供了一个非常方便的 API,用于获取 URL 以及提取和操作数据。

可以从 URL、文件或字符串中抓取和解析HTML
使用 DOM 遍历或 CSS 选择器查找和提取数据
操作HTML 元素、属性和文本
根据安全列表清理用户提交的内容,以防止XSS攻击
输出整洁的 HTML
jsoup 旨在处理各种常见的 HTML;从原始和验证到无效标签汤;jsoup 将创建一个合理的解析树。

下面是基本的使用方法

要实现的目标

image

代码实现

1、引入pom依赖
`

<!--Jsoup解析html-->
    <dependency>
        <groupId>org.jsoup</groupId>
        <artifactId>jsoup</artifactId>
        <version>1.12.1</version>
    </dependency>

`

2、编写测试类

@Test
    public void ReferenceCount() throws IOException {
        // 创建对象 获取网页信息
        Document doc = Jsoup.connect("https://jsoup.org/").get();
        log.info(doc.title());
        // 使用选择器语法查找元素
        Elements newsHeadlines = doc.select("a.badge");
        for (Element headline : newsHeadlines) {
            // 获取元素的链接地址
            String href = headline.absUrl("href");
            // 打印
            log.info(href);
        }
    }

3、执行

2022-08-25 10:30:01.022 INFO 12644 --- [ main] test : https://whatwg.org/html 正常输入目标链接
2022-08-25 10:30:01.022 INFO 12644 --- [ main] test : https://www.opensource.org/ 正常输入目标链接

更多的元素选择操作可以看JSOUP方法的博客

posted @ 2022-08-25 10:33  傲浮  阅读(784)  评论(0)    收藏  举报