scrapy-redis项目:爬取某网站图书信息 - 实践

目标

网站All products | Books to Scrape - Sandbox

需求

  1. 获取标题(title),价格(price),分类(category),详情(description),upc号码(upc),链接地址(url),图片地址(img_url)

  2. 如果有翻页就进行翻页处理

  3. 保存csv文件

步骤

  1. 创建scrapy计划

  2. 修改settings.py档案中需要进行修改的项

  3. 通过需求来写items.py字段

  4. 对页面进行数据抓包,分析页面

  5. 获取首页的分类列表,提前分类名称和详情链接

  6. 将获取到的url进行拼接,并且向分类页继续发送链接

  7. 获取分类页的每一个图书的详情页链接,并且判断该页是否有20条资料,有就进行翻页处理

  8. 进入图书详情页获取上述的信息

  9. 更改settings.py的配置文件,改用redis

  10. 将spider里面的爬虫继承的类修改成rediss

posted @ 2025-10-11 10:04  wzzkaifa  阅读(18)  评论(0)    收藏  举报