摘要: proxies的格式是一个字典:{‘http’: ‘http://42.84.226.65:8888‘} 有http与https两种,在爬取不同网站时我们需要选用不同类型的网站时选用不同的proxise,在不知道网站类型时可以将两种类型均放进去,requests会自动选择合适的 proxies = 阅读全文
posted @ 2020-03-12 23:41 cknds 阅读(6149) 评论(0) 推荐(1)
摘要: 现在要访问一个目标地址是http的地址:http://icanhazip.com/,这个地址可以获取机器的外网ip理论上,由于上述地址是http的,所以使用http代理会通过代理访问该地址,即res =requests.get('http://icanhazip.com/', proxies={'h 阅读全文
posted @ 2020-03-12 23:33 cknds 阅读(985) 评论(0) 推荐(0)
摘要: -- 查看有哪些定时计划 show events -- 删除名称为risk的定时计划 DROP EVENT IF EXISTS risk; -- 创建定时计划的例子,每天定时,自动将日期加1天 CREATE EVENT `risk_spider_crawl_param_update` ON SCHE 阅读全文
posted @ 2020-03-12 16:32 cknds 阅读(2397) 评论(0) 推荐(0)
摘要: 在使用scrapy抓取数据的时候使用了代理IP,难免会遇到代理IP失效的情况。 因为对数据完整性要求较高,请问如何设置只要没有成功的返回response则把任务重新放进Request队列中去继续爬取? 可以使用scrapy自带的 scrapy.downloadermiddlewares.retry. 阅读全文
posted @ 2020-03-12 09:30 cknds 阅读(3089) 评论(0) 推荐(0)