scrapy-redis项目：爬取某网站图书信息 - 实践

目标

网站：All products | Books to Scrape - Sandbox

需求

获取标题（title），价格（price），分类（category），详情（description），upc号码（upc），链接地址（url），图片地址（img_url）
如果有翻页就进行翻页处理
保存csv文件

步骤

创建scrapy计划
修改settings.py档案中需要进行修改的项
通过需求来写items.py字段
对页面进行数据抓包，分析页面
获取首页的分类列表，提前分类名称和详情链接
将获取到的url进行拼接，并且向分类页继续发送链接
获取分类页的每一个图书的详情页链接，并且判断该页是否有20条资料，有就进行翻页处理
进入图书详情页获取上述的信息
更改settings.py的配置文件，改用redis
将spider里面的爬虫继承的类修改成rediss

posted @ 2025-10-11 10:04 wzzkaifa 阅读(20) 评论(0) 收藏举报

刷新页面返回顶部