Java8爬取贷款市场报价利率(LPR)

爬取贷款市场报价利率(LPR)

目标

获取贷款市场报价利率信息

页面展示

一级目标网页

爬取内容

方法步骤

思路:使用webDriver进入页面,获取页面html文档再获取a标签;获取到a标签后进入到目标页面,获取对应的content

资料准备

WebDriver驱动与chrome32的版本一致(103.0.5060.53
0. chrome32位下载地址

  1. WebDriver

  2. webDriver解压到C:/Windows/chromedriver_win32 (2)/chromedriver.exe

  1. 添加系统变量

4.chrome32位

  1. 关闭chrome的自动更新

Java爬取代码

import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;

import java.util.List;

public class HH {
    public static void main(String[] args) {
        // 设置ChromeDriver的路径
        System.setProperty("webdriver.chrome.driver", "C:/Windows/chromedriver_win32 (2)/chromedriver.exe");

        // 创建WebDriver实例
        WebDriver driver = new ChromeDriver();

        // 导航到指定网页
//        driver.get("http://camlmac.pbc.gov.cn/zhengcehuobisi/125207/125213/125440/3876551/4965544/index.html");
        driver.get("http://camlmac.pbc.gov.cn/zhengcehuobisi/125207/125213/125440/3876551/index.html");

        // 提取数据的逻辑,这里只是个示例
//        String pageTitle = driver.getTitle();
//        String pageSource = driver.getPageSource();
//        System.out.println(pageSource);
//        System.out.println("Page Title: " + pageTitle);
////# 查找具有特定类名的所有元素
//        List<WebElement> links = driver.findElements(new By.ByClassName(".hui12"));
//        for (WebElement link : links) {
//            String text = link.getText();
////            String url = link.getAttribute("href");
//            System.out.println("链接文本: " + text);
////            System.out.println("URL: " + url);
//        }


        // 使用 WebDriver 的 findElements 方法定位所有 <a> 标签
        List<WebElement> links = driver.findElements(By.tagName("a"));

        // 遍历所有 <a> 标签,输出链接文本和 URL
        for (WebElement link : links) {
            String text = link.getText();

            // 判断链接文本是否包含指定的关键字
            if (text.contains("全国银行间同业拆借中心受权公布贷款市场报价利率(LPR)公告")) {
                String url = link.getAttribute("href");
                System.out.println("链接文本: " + text);
                System.out.println("URL: " + url);
            }

//            String url = link.getAttribute("href");
//            System.out.println("链接文本: " + text);
//            System.out.println("URL: " + url);
        }

        // 关闭浏览器并退出
        driver.quit();
    }
}

运行结果

数据筛选代码(待续)

posted @ 2023-07-04 10:52  Tiory  阅读(178)  评论(0)    收藏  举报