摘要: Jobs: pausing and resuming crawls1Sometimes, for big sites, it’s desirable to pause crawls and be able to resume them later.Scrap... 阅读全文
posted @ 2019-03-08 10:39 onefine 阅读(891) 评论(0) 推荐(0) 编辑
摘要: 1. 新建知乎爬虫:> scrapy genspider zhihu www.zhihu.com编写zhihu spider的页面解析函数parse(),由于此函数被要求返回一个可迭代对象,所以这里直接返回一个空列表作为测试。# -*- coding: ut... 阅读全文
posted @ 2019-03-07 18:24 onefine 阅读(325) 评论(0) 推荐(0) 编辑
摘要: 一、Downloader Middleware 的用法Downloader Middleware即下载中间件,它是处于Scrapy的Request和Response之间的处理模块。Scheduler从队列中拿出一个Request发送给Downloader执行... 阅读全文
posted @ 2019-03-07 09:29 onefine 阅读(1166) 评论(0) 推荐(0) 编辑
摘要: 详解:https://www.cnblogs.com/thunderLL/p/6551641.html参考:Scrapy框架–Requests对象 https://www.cnblogs.com/thunderLL/p/6551641.html爬虫:Scr... 阅读全文
posted @ 2019-03-07 00:02 onefine 阅读(218) 评论(0) 推荐(0) 编辑
摘要: 转载: https://www.zhihu.com/question/19801131/answer/27459821什么是回调函数?我们绕点远路来回答这个问题。编程分为两类:系统编程(system programming)和应用编程(application... 阅读全文
posted @ 2019-03-07 00:00 onefine 阅读(11244) 评论(0) 推荐(0) 编辑
摘要: PhantomJS1是一个可编写脚本的无头网页浏览器。它运行在Windows,macOS,Linux和FreeBSD上。使用QtWebKit作为后端,它为各种Web标准提供快速和本机支持:DOM处理,CSS选择器,JSON,Canvas和SVG。注意:多进程... 阅读全文
posted @ 2019-03-06 18:03 onefine 阅读(1841) 评论(0) 推荐(0) 编辑
摘要: 转载: https://zhuanlan.zhihu.com/p/56040461上一篇文章《selenium的检测与突破》讲过了如果绕过对于webdriver的检测。接下来就可以登陆了吗?别高兴太早:无论我使用’find_element_by_id’还是’... 阅读全文
posted @ 2019-03-05 20:05 onefine 阅读(2873) 评论(2) 推荐(0) 编辑
摘要: 转载: https://zhuanlan.zhihu.com/p/56040461当使用selenium去某宝或其他网站进行爬虫或者模拟登陆时,会出现滑动验证码,并且无论是用ActionChains滑还是手动滑,都会很委婉的告诉你“哎呀网络错误,请刷新”等等... 阅读全文
posted @ 2019-03-05 19:59 onefine 阅读(1218) 评论(0) 推荐(0) 编辑
摘要: 解决selenium + chromedriver被知乎反爬的问题1当使用selenium去某宝或其他网站进行爬虫或者模拟登陆时,会出现滑动验证码,并且无论是用ActionChains滑还是手动滑,都会很委婉的告诉你“哎呀网络错误,请刷新”等等。why?经过... 阅读全文
posted @ 2019-03-05 19:50 onefine 阅读(743) 评论(0) 推荐(0) 编辑
摘要: Selenium 1 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,O... 阅读全文
posted @ 2019-03-05 19:30 onefine 阅读(915) 评论(0) 推荐(0) 编辑