随笔分类 -  爬虫

摘要:``` import requests import time from read_ip_pool import read_ip_pool PROXIES_URL = '' def get_ip_pool(url=PROXIES_URL): """ 根据URL构造代理池 :param PROXIES_URL: :return: [] """ resp... 阅读全文
posted @ 2018-10-04 21:41 Rocin 阅读(279) 评论(0) 推荐(0)
摘要:选择文本 选择href 阅读全文
posted @ 2018-09-23 00:09 Rocin 阅读(3341) 评论(0) 推荐(1)
摘要:前提:看Scrapy架构图 不管什么Middlewares,都写在middlewares.py里面。 然后在settings.py里的DOWNLOADER_MIDDLEWARES或者SPIDER_MIDDLEWARES里面再设置中间件,这样中间件才细分为下载器中间件还是爬取中间件。 阅读全文
posted @ 2018-08-29 10:17 Rocin 阅读(144) 评论(0) 推荐(0)
摘要:基本思路 Based on Selenium(模拟浏览器动作) 1. 模拟点击验证按钮 2. 识别滑动缺口的位置 3. 模拟拖动模块。 对于3 反爬虫策略:机器学习轨迹识别。只有模拟人的移动轨迹才可以,先快后慢 阅读全文
posted @ 2018-08-26 16:00 Rocin 阅读(444) 评论(0) 推荐(0)
摘要:用OCR来识别 直接识别效果不好,因为验证码内的多余线条干扰了图片的识别。先转为灰度图像,再二值化。经实践证明,该方法不是100%正确。 python 获取图片 curl X GET http://my.cnki.net/elibregister/CheckCode.aspx import tess 阅读全文
posted @ 2018-08-26 15:00 Rocin 阅读(278) 评论(0) 推荐(0)
摘要:What is it? Splash is a javascript rendering service. It’s a lightweight web browser with an HTTP API http://splash.readthedocs.io/en/stable/ 用途 爬虫方面可 阅读全文
posted @ 2018-08-14 19:53 Rocin 阅读(381) 评论(0) 推荐(0)
摘要:思路分析 1. 用reuqests发送GET请求,发现抓取的信息的数据源(url)包含在返回的HTML中,获取该数据源(url),再用requests库发送GET请求获取数据;(这个不同于AJAX,因为数据源不用在Chrome debugger中查看XHR对象获取。网站的原理是从数据源获取数据,然后 阅读全文
posted @ 2018-07-18 14:29 Rocin 阅读(703) 评论(0) 推荐(0)
摘要:定义 XPath,全称 XML Path Language,即 XML 路径语言,它是一门在XML文档中查找信息的语言,是一个文档解析库。XPath 最初设计是用来搜寻XML文档的,但是它同样适用于 HTML 文档的搜索。 所以在做爬虫时,可以使用 XPath 来做相应的信息抽取,定位节点。 XPa 阅读全文
posted @ 2018-07-12 16:21 Rocin 阅读(167) 评论(0) 推荐(0)