03 2019 档案

摘要:Jobs: pausing and resuming crawls1Sometimes, for big sites, it’s desirable to pause crawls and be able to resume them later.Scrap... 阅读全文
posted @ 2019-03-08 10:39 onefine 阅读(958) 评论(0) 推荐(0)
摘要:1. 新建知乎爬虫:> scrapy genspider zhihu www.zhihu.com编写zhihu spider的页面解析函数parse(),由于此函数被要求返回一个可迭代对象,所以这里直接返回一个空列表作为测试。# -*- coding: ut... 阅读全文
posted @ 2019-03-07 18:24 onefine 阅读(349) 评论(0) 推荐(0)
摘要:一、Downloader Middleware 的用法Downloader Middleware即下载中间件,它是处于Scrapy的Request和Response之间的处理模块。Scheduler从队列中拿出一个Request发送给Downloader执行... 阅读全文
posted @ 2019-03-07 09:29 onefine 阅读(1238) 评论(0) 推荐(0)
摘要:详解:https://www.cnblogs.com/thunderLL/p/6551641.html参考:Scrapy框架–Requests对象 https://www.cnblogs.com/thunderLL/p/6551641.html爬虫:Scr... 阅读全文
posted @ 2019-03-07 00:02 onefine 阅读(226) 评论(0) 推荐(0)
摘要:转载: https://www.zhihu.com/question/19801131/answer/27459821什么是回调函数?我们绕点远路来回答这个问题。编程分为两类:系统编程(system programming)和应用编程(application... 阅读全文
posted @ 2019-03-07 00:00 onefine 阅读(11455) 评论(0) 推荐(0)
摘要:PhantomJS1是一个可编写脚本的无头网页浏览器。它运行在Windows,macOS,Linux和FreeBSD上。使用QtWebKit作为后端,它为各种Web标准提供快速和本机支持:DOM处理,CSS选择器,JSON,Canvas和SVG。注意:多进程... 阅读全文
posted @ 2019-03-06 18:03 onefine 阅读(1907) 评论(0) 推荐(0)
摘要:转载: https://zhuanlan.zhihu.com/p/56040461上一篇文章《selenium的检测与突破》讲过了如果绕过对于webdriver的检测。接下来就可以登陆了吗?别高兴太早:无论我使用’find_element_by_id’还是’... 阅读全文
posted @ 2019-03-05 20:05 onefine 阅读(3027) 评论(2) 推荐(0)
摘要:转载: https://zhuanlan.zhihu.com/p/56040461当使用selenium去某宝或其他网站进行爬虫或者模拟登陆时,会出现滑动验证码,并且无论是用ActionChains滑还是手动滑,都会很委婉的告诉你“哎呀网络错误,请刷新”等等... 阅读全文
posted @ 2019-03-05 19:59 onefine 阅读(1368) 评论(0) 推荐(0)
摘要:解决selenium + chromedriver被知乎反爬的问题1当使用selenium去某宝或其他网站进行爬虫或者模拟登陆时,会出现滑动验证码,并且无论是用ActionChains滑还是手动滑,都会很委婉的告诉你“哎呀网络错误,请刷新”等等。why?经过... 阅读全文
posted @ 2019-03-05 19:50 onefine 阅读(852) 评论(0) 推荐(0)
摘要:Selenium 1 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,O... 阅读全文
posted @ 2019-03-05 19:30 onefine 阅读(957) 评论(0) 推荐(0)
摘要:参考:CentOS7安装iptables防火墙 https://www.cnblogs.com/kreo/p/4368811.htmlCentOS7使用firewalld打开关闭防火墙与端口 https://www.cnblogs.com/moxiaoa... 阅读全文
posted @ 2019-03-04 20:13 onefine 阅读(291) 评论(0) 推荐(0)
摘要:简介firewalld:(系统/网络)就是防火墙!以前有iptables与ip6tables等防火墙机制,新的firewalld搭配firewall-cmd指令,可以快速的设置防火墙系统!因此,从CenterOS 7.1以后,iptables服务的启动脚本已... 阅读全文
posted @ 2019-03-04 15:57 onefine 阅读(335) 评论(0) 推荐(0)
摘要:NoSQL的概述什么是NoSQLNoSQL = Not Only SQL 非关系型数据库为什么需要NoSQLHigh performance 高并发读写Huge Storage 海量数据的高效率存储和访问High Scalability && High Av... 阅读全文
posted @ 2019-03-03 22:24 onefine 阅读(154) 评论(0) 推荐(0)