随笔分类 - 爬虫
摘要:``` import requests import time from read_ip_pool import read_ip_pool PROXIES_URL = '' def get_ip_pool(url=PROXIES_URL): """ 根据URL构造代理池 :param PROXIES_URL: :return: [] """ resp...
阅读全文
摘要:前提:看Scrapy架构图 不管什么Middlewares,都写在middlewares.py里面。 然后在settings.py里的DOWNLOADER_MIDDLEWARES或者SPIDER_MIDDLEWARES里面再设置中间件,这样中间件才细分为下载器中间件还是爬取中间件。
阅读全文
摘要:基本思路 Based on Selenium(模拟浏览器动作) 1. 模拟点击验证按钮 2. 识别滑动缺口的位置 3. 模拟拖动模块。 对于3 反爬虫策略:机器学习轨迹识别。只有模拟人的移动轨迹才可以,先快后慢
阅读全文
摘要:用OCR来识别 直接识别效果不好,因为验证码内的多余线条干扰了图片的识别。先转为灰度图像,再二值化。经实践证明,该方法不是100%正确。 python 获取图片 curl X GET http://my.cnki.net/elibregister/CheckCode.aspx import tess
阅读全文
摘要:What is it? Splash is a javascript rendering service. It’s a lightweight web browser with an HTTP API http://splash.readthedocs.io/en/stable/ 用途 爬虫方面可
阅读全文
摘要:思路分析 1. 用reuqests发送GET请求,发现抓取的信息的数据源(url)包含在返回的HTML中,获取该数据源(url),再用requests库发送GET请求获取数据;(这个不同于AJAX,因为数据源不用在Chrome debugger中查看XHR对象获取。网站的原理是从数据源获取数据,然后
阅读全文
摘要:定义 XPath,全称 XML Path Language,即 XML 路径语言,它是一门在XML文档中查找信息的语言,是一个文档解析库。XPath 最初设计是用来搜寻XML文档的,但是它同样适用于 HTML 文档的搜索。 所以在做爬虫时,可以使用 XPath 来做相应的信息抽取,定位节点。 XPa
阅读全文

浙公网安备 33010602011771号