Java+Selenium爬虫【流程】
1、首先,浏览器版本必须和selenium的jar包版本一致,浏览器安装好后,需要禁用浏览器的更新功能,防止版本更新导致后端代码运行异常。
2、然后,在数据库中创建爬取的爬虫目标表,里面的有如下字段:目标页面、目标元素标识、下一页标识、页码标识(可无)、总页数标识等,根据实际开发需要自行添加。另外开启多线程爬虫需要在数据库中保存线程的状态,需要创建任务表。
3、其次,编写业务逻辑代码,使用Webdriver类打开浏览器,并进入目标页面,可以通过WebElement保存爬取的网页标签元素。
4、随后,通过ETL数据抽取转换工具(kettle)对源数据进行清洗,目的是达到统一数据格式标准以及筛选无效数据,清洗后将源数据保存至服务器数据库中。
附件:
https://files.cnblogs.com/files/blogcy/%E7%88%AC%E8%99%AB%E7%BD%91%E7%AB%99%E5%8F%82%E6%95%B0%E9%85%8D%E7%BD%AE%E6%AD%A5%E9%AA%A4.zip?t=1685353410&download=true
本文作者: 曹子叶
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利.
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利.