Java+Selenium爬虫【流程】

1、首先，浏览器版本必须和selenium的jar包版本一致，浏览器安装好后，需要禁用浏览器的更新功能，防止版本更新导致后端代码运行异常。

2、然后，在数据库中创建爬取的爬虫目标表，里面的有如下字段：目标页面、目标元素标识、下一页标识、页码标识（可无）、总页数标识等，根据实际开发需要自行添加。另外开启多线程爬虫需要在数据库中保存线程的状态，需要创建任务表。

3、其次，编写业务逻辑代码，使用Webdriver类打开浏览器，并进入目标页面，可以通过WebElement保存爬取的网页标签元素。

4、随后，通过ETL数据抽取转换工具（kettle）对源数据进行清洗，目的是达到统一数据格式标准以及筛选无效数据，清洗后将源数据保存至服务器数据库中。

附件：

　　https://files.cnblogs.com/files/blogcy/%E7%88%AC%E8%99%AB%E7%BD%91%E7%AB%99%E5%8F%82%E6%95%B0%E9%85%8D%E7%BD%AE%E6%AD%A5%E9%AA%A4.zip?t=1685353410&download=true

posted @ 2023-04-23 10:53 青棠阅读(391) 评论(0) 收藏举报

刷新页面返回顶部

青棠

画凌烟，上甘泉。

Java+Selenium爬虫【流程】

公告