Scrapy学习 - 随笔分类 - liubosong

Scrapy改成Scrapy-Redis

摘要：1. 增加去重容器类配置,DUPEFILTER_CLASS = “scrapy_redis.dupefilter.RFPDupeFilter” 2. 增加调度配置,SCHEDULER = “scrapy_redis.scheduler.Scheduler” 3. 配置调度器持久化, 爬虫结束, 要不阅读全文

posted @ 2019-02-03 11:59 liubosong 阅读(591) 评论(0) 推荐(0)

爬虫笔记

摘要：框架 pyspiderpyspider 启动callback 回调self.crawl 生成一个爬取任务，加入到待爬取的队列@every 告诉调度器这个方法每天执行一次@config 告诉调度器这个request请求过期时间为10天解析数据 re bs4 xpath pyqueryphant 阅读全文

posted @ 2019-01-30 23:32 liubosong 阅读(291) 评论(0) 推荐(0)

网络爬虫-总结

摘要：import requests requests . get( ' https:/ /www. baidu. com')爬虫程序1.给定种子url,程序负责获取url的页面数据2.程序对页面数据解析解析，匹配需要的url连接，放入到队列3.重复1和2, 直到条件完成效率线程协程分布式架构优阅读全文

posted @ 2019-01-30 20:57 liubosong 阅读(353) 评论(0) 推荐(0)

pymongo使用方法

摘要：连接MongoDB 连接MongoDB我们需要使用PyMongo库里面的MongoClient，一般来说传入MongoDB的IP及端口即可 client = pymongo.MongoClient(host='127.0.0.1', port=27017) # 指定数据库 # MongoDB中还分为阅读全文

posted @ 2019-01-30 20:02 liubosong 阅读(134) 评论(0) 推荐(0)

Mac下，安装redis之后，启动时遇到的问题

摘要：一、用brew install redis 二、启动 redis-cli 弹出Could not connect to Redis at 127.0.0.1:6379: Connection refused 三、redis-server 首先cd到redis.conf文件所在的文件夹，redis.c 阅读全文

posted @ 2019-01-29 15:09 liubosong 阅读(1277) 评论(0) 推荐(0)

liubosong

随笔分类 - Scrapy学习

公告