随笔分类 - Scrapy学习
摘要:1. 增加去重容器类配置,DUPEFILTER_CLASS = “scrapy_redis.dupefilter.RFPDupeFilter” 2. 增加调度配置,SCHEDULER = “scrapy_redis.scheduler.Scheduler” 3. 配置调度器持久化, 爬虫结束, 要不
阅读全文
摘要:框架 pyspiderpyspider 启动callback 回调self.crawl 生成一个爬取任务,加入到待爬取的队列@every 告诉调度器 这个方法 每天执行一次@config 告诉调度器 这个request请求 过期时间为10天解析数据 re bs4 xpath pyqueryphant
阅读全文
摘要:import requests requests . get( ' https:/ /www. baidu. com')爬虫程序1.给定种子url,程序负责获取url的页面数据2.程序对页面数据解析解析,匹配需要的url连接,放入到队列3.重复1和2, 直到条件完成 效率 线程 协程 分布式架构 优
阅读全文
摘要:连接MongoDB 连接MongoDB我们需要使用PyMongo库里面的MongoClient,一般来说传入MongoDB的IP及端口即可 client = pymongo.MongoClient(host='127.0.0.1', port=27017) # 指定数据库 # MongoDB中还分为
阅读全文
摘要:一、用brew install redis 二、启动 redis-cli 弹出Could not connect to Redis at 127.0.0.1:6379: Connection refused 三、redis-server 首先cd到redis.conf文件所在的文件夹,redis.c
阅读全文

浙公网安备 33010602011771号