摘要: 一、概述 1.中间件的作用 在scrapy运行的整个过程中,对scrapy框架运行的某些步骤做一些适配自己项目的动作. 例如scrapy内置的HttpErrorMiddleware,可以在http请求出错时做一些处理. 2.中间件的使用方法 配置settings.py.详见scrapy文档 http 阅读全文
posted @ 2018-03-23 14:46 Masako 阅读(6533) 评论(2) 推荐(0) 编辑
摘要: 一、安装 pip install scrapy. 如果提示需要什么包就装什么包 有的包pip安装不起,需要自己下载whl文件进行安装. 二、基本的爬虫流程 通用爬虫有如下几步: 构造url -->> 请求,获取页面内容 -->> 分析页面内容(解析) -->> 保存结果 三、scrapy的爬虫流程 阅读全文
posted @ 2018-03-23 11:08 Masako 阅读(331) 评论(0) 推荐(0) 编辑
摘要: 搞明白了比较困惑的一点,就是数据的联系在哪里.若使用pymongo,会有一个connect对象,用以操作数据库. 在mongo engine中,Document对象就是connect链接到的数据库,只需要继承它,就可以进行相应操作.而在使用时,若已创建了要使用的数据库,则类名和属性名都要一一对应来使 阅读全文
posted @ 2018-03-05 11:36 Masako 阅读(381) 评论(0) 推荐(0) 编辑
摘要: 在爬虫分析的时候,经常在网页上看到如下格式的rsa公钥: 对于rsa算法的公钥,我们了解到,主要有两个信息:模数(modulus)和指数(exponent) 只有有这两个信息,我们便可以用以下代码段生成公钥,然后使用rsa库对数据进行加密 现在我们需要做的就是从这段字符串中提出模数和指数. 在研究的 阅读全文
posted @ 2017-10-13 11:47 Masako 阅读(20128) 评论(3) 推荐(8) 编辑
摘要: 前面说了使用浏览器登录较为简单,不需要过多分析,而使用请求登录恰恰就是以分析为主. 开发一个请求登录程序的流程: 分析请求->模拟请求->测试登录->调整参数->测试登录->登录成功 一、分析网页 从网页着手,打开博客园的登录页面,F12调出网页调试,选择network的tab,然后登录,登录成功后 阅读全文
posted @ 2017-08-21 17:03 Masako 阅读(4419) 评论(0) 推荐(0) 编辑
摘要: 浏览器模拟登录的主要技术点在于: 1.如何使用python的浏览器操作工具selenium 2.简单看一下网页,找到帐号密码对应的框框,要知道python开启的浏览器如何定位到这些 一、使用selenium打开网页 以上几句执行便可以打开博客园的登录界面,开启浏览器可能较慢,耐心等一下. 以前的se 阅读全文
posted @ 2017-08-21 12:27 Masako 阅读(18763) 评论(3) 推荐(0) 编辑
摘要: 爬虫主要目的是获取数据,常见的数据可以直接访问网页或者抓包获取,然后再解析即可. 一些较为隐私的数据则不会让游客身份的访问者随便看到,这个时候便需要登录获取. 一般获取数据需要的是登录后的cookie作为身份验证,如果一个可用cookie就能满足你的爬虫需要,可以不用模拟登录, 直接在网页上登录,拷 阅读全文
posted @ 2017-08-21 12:25 Masako 阅读(1509) 评论(0) 推荐(0) 编辑
摘要: 首先是使用ubuntu作为服务器发送 这个操作可能失败,收邮件也需要到垃圾箱查看。 第一步,安装发送邮件需要的服务 使用命令: 第一句是安装,第二句是开启 第二步,写一个发邮件的python文件 随便上网找一段就可以了... 以下是我找的例子: 第三步,将程序跑起来 将第二步的程序保存下来,命名为e 阅读全文
posted @ 2017-07-21 14:56 Masako 阅读(536) 评论(0) 推荐(0) 编辑
摘要: 机器的环境是python2.7.6; 使用pip install安装了amqp.正常安装,未报错. amqp安装的版本是2.1.4. 在python中,使用import amqp,报错如下: 百度和google了一些Struct() argument 1 must be string, not un 阅读全文
posted @ 2017-06-29 17:46 Masako 阅读(1127) 评论(0) 推荐(0) 编辑
摘要: 最近使用supervisor部署爬虫,百度了很多,磕磕绊绊自己也算是用起来了,以下是整理的使用情况. 第一步: 下载安装supervisor 使用的ubuntu16.04,直接 sudo apt-get install supervisor 由于权限老是不够,习惯加sudo~ 也可以 pip ins 阅读全文
posted @ 2017-06-02 09:43 Masako 阅读(2661) 评论(0) 推荐(0) 编辑