2020 年 3月 12 日随笔档案 - cknds

2020年3月12日

摘要： proxies的格式是一个字典：{‘http’: ‘http://42.84.226.65:8888‘} 有http与https两种，在爬取不同网站时我们需要选用不同类型的网站时选用不同的proxise，在不知道网站类型时可以将两种类型均放进去，requests会自动选择合适的 proxies = 阅读全文

posted @ 2020-03-12 23:41 cknds 阅读(6149) 评论(0) 推荐(1)

requests库怎么验证代理是否有效

摘要：现在要访问一个目标地址是http的地址：http://icanhazip.com/，这个地址可以获取机器的外网ip理论上，由于上述地址是http的，所以使用http代理会通过代理访问该地址，即res =requests.get('http://icanhazip.com/', proxies={'h 阅读全文

posted @ 2020-03-12 23:33 cknds 阅读(985) 评论(0) 推荐(0)

用MySQL创建定时任务

摘要： -- 查看有哪些定时计划 show events -- 删除名称为risk的定时计划 DROP EVENT IF EXISTS risk; -- 创建定时计划的例子,每天定时，自动将日期加1天 CREATE EVENT `risk_spider_crawl_param_update` ON SCHE 阅读全文

posted @ 2020-03-12 16:32 cknds 阅读(2397) 评论(0) 推荐(0)

scrapy中如何设置request的重试次数

摘要：在使用scrapy抓取数据的时候使用了代理IP，难免会遇到代理IP失效的情况。因为对数据完整性要求较高，请问如何设置只要没有成功的返回response则把任务重新放进Request队列中去继续爬取？可以使用scrapy自带的 scrapy.downloadermiddlewares.retry. 阅读全文

posted @ 2020-03-12 09:30 cknds 阅读(3089) 评论(0) 推荐(0)

cknds

公告