Java+Selenium爬虫【流程】

1、首先,浏览器版本必须和selenium的jar包版本一致,浏览器安装好后,需要禁用浏览器的更新功能,防止版本更新导致后端代码运行异常。

2、然后,在数据库中创建爬取的爬虫目标表,里面的有如下字段:目标页面、目标元素标识、下一页标识、页码标识(可无)、总页数标识等,根据实际开发需要自行添加。另外开启多线程爬虫需要在数据库中保存线程的状态,需要创建任务表。

3、其次,编写业务逻辑代码,使用Webdriver类打开浏览器,并进入目标页面,可以通过WebElement保存爬取的网页标签元素。

4、随后,通过ETL数据抽取转换工具(kettle)对源数据进行清洗,目的是达到统一数据格式标准以及筛选无效数据,清洗后将源数据保存至服务器数据库中。

 

附件:

  https://files.cnblogs.com/files/blogcy/%E7%88%AC%E8%99%AB%E7%BD%91%E7%AB%99%E5%8F%82%E6%95%B0%E9%85%8D%E7%BD%AE%E6%AD%A5%E9%AA%A4.zip?t=1685353410&download=true

posted @ 2023-04-23 10:53  青棠  阅读(370)  评论(0)    收藏  举报