摘要: 场景2的实现: 数据指纹 使用详情页的url充当数据指纹即可。 创建爬虫爬虫文件: cd project_name(进入项目目录) scrapy genspider 爬虫文件的名称(自定义一个名字即可) 起始url (例如:scrapy genspider first www.xxx.com) 创建 阅读全文
posted @ 2023-02-22 16:21 Chimengmeng 阅读(30) 评论(0) 推荐(0)
摘要: 场景1的实现: 数据指纹: 数据的唯一标识。记录表中可以不直接存储数据本身,直接存储数据指纹更好一些。 创建爬虫爬虫文件: cd project_name(进入项目目录) scrapy genspider 爬虫文件的名称(自定义一个名字即可) 起始url (例如:scrapy genspider f 阅读全文
posted @ 2023-02-22 15:18 Chimengmeng 阅读(63) 评论(0) 推荐(0)
摘要: Day 22 22.1:增量式爬虫 爬虫应用场景分类 通用爬虫 聚焦爬虫 功能爬虫 分布式爬虫 增量式爬虫: 用来监测网站数据更新的情况(爬取网站最新更新出来的数据)。 只是一种程序设计的思路,使用什么技术都是可以实现的。 核心: 去重。 使用一个记录表来实现数据的去重: 记录表:存储爬取过的数据的 阅读全文
posted @ 2023-02-22 15:03 Chimengmeng 阅读(55) 评论(0) 推荐(0)
摘要: CrawlSpider-redis分布式 分布式在日常开发中并不常用,只是一个噱头! 概念: 可以使用多台电脑搭建一个分布式机群,使得多台对电脑可以对同一个网站的数据进行联合且分布的数据爬取。 声明: 原生的scrapy框架并无法实现分布式操作!why? 多台电脑之间无法共享同一个调度器 多台电脑之 阅读全文
posted @ 2023-02-22 12:25 Chimengmeng 阅读(46) 评论(0) 推荐(0)
摘要: CrawlSpider(全站数据爬取) 实现网站的全站数据爬取 就是将网站中所有页码对应的页面数据进行爬取。 crawlspider其实就是scrapy封装好的一个爬虫类,通过该类提供的相关的方法和属性就可以实现全新高效形式的全站数据爬取。 使用流程: 新建一个scrapy项目 cd 项目 创建爬虫 阅读全文
posted @ 2023-02-22 12:05 Chimengmeng 阅读(59) 评论(0) 推荐(0)