随笔档案「2021年9月9日」：scrapy-redis性能问题 ... - 技术改变命运Andy

2021年9月9日

摘要： 1，要想达到日爬取千万，这种大规模的爬取，使用分布式是必须的，关于可以使用RabbitMQ消息队列代替Redis。关于celery的使用， 2，关于资源问题，数据去重问题，使用布隆过滤去重，几乎也是达成了共识， 3，另外就是代码健壮性要强！高可用、高扩展、高性能你可以都不知道，也没多大关系。但是阅读全文

posted @ 2021-09-09 02:17 技术改变命运Andy 阅读(236) 评论(0) 推荐(0)

爬虫 DATA/URL 去重

摘要：爬虫 DATA/URL 去重舆情业务必须紧盯网站是否有新的内容发布，要求是越快越好，但由于各项软硬件限制，通常会要求在 30 分钟内或者 15 分钟内监听到新内容。要实现对目标网站内容变化的监听，那么我们可以选择的比较好的方式就是轮询。不停地访问网页，并且判断是否有“新内容”出现，如果有的话就执行阅读全文

posted @ 2021-09-09 01:42 技术改变命运Andy 阅读(176) 评论(0) 推荐(0)

scrapy怎么同时运行多个爬虫？

摘要： ###### 可以通过以下几种方式： 1.开启多个命令行，分别执行scrapy cralw xxxx 2.编写一个脚本，写入以下代码，执行工程下的所有爬虫： from scrapy.utils.project import get_project_settings from scrapy.crawl 阅读全文

posted @ 2021-09-09 00:01 技术改变命运Andy 阅读(632) 评论(0) 推荐(0)