爬虫 - 随笔分类 - Rocin

爬虫 - 定时获取代理池(简单方法)

摘要：``` import requests import time from read_ip_pool import read_ip_pool PROXIES_URL = '' def get_ip_pool(url=PROXIES_URL): """ 根据URL构造代理池 :param PROXIES_URL: :return: [] """ resp... 阅读全文

posted @ 2018-10-04 21:41 Rocin 阅读(279) 评论(0) 推荐(0)

Scrapy - response.css()

摘要：选择文本选择href 阅读全文

posted @ 2018-09-23 00:09 Rocin 阅读(3341) 评论(0) 推荐(1)

爬虫 - Scrapy中间件

摘要：前提：看Scrapy架构图不管什么Middlewares，都写在middlewares.py里面。然后在settings.py里的DOWNLOADER_MIDDLEWARES或者SPIDER_MIDDLEWARES里面再设置中间件，这样中间件才细分为下载器中间件还是爬取中间件。阅读全文

posted @ 2018-08-29 10:17 Rocin 阅读(144) 评论(0) 推荐(0)

爬虫 - 极验验证码(滑动验证码)

摘要：基本思路 Based on Selenium(模拟浏览器动作) 1. 模拟点击验证按钮 2. 识别滑动缺口的位置 3. 模拟拖动模块。对于3 反爬虫策略：机器学习轨迹识别。只有模拟人的移动轨迹才可以，先快后慢阅读全文

posted @ 2018-08-26 16:00 Rocin 阅读(444) 评论(0) 推荐(0)

爬虫 - 图形验证码

摘要：用OCR来识别直接识别效果不好，因为验证码内的多余线条干扰了图片的识别。先转为灰度图像，再二值化。经实践证明，该方法不是100%正确。 python 获取图片 curl X GET http://my.cnki.net/elibregister/CheckCode.aspx import tess 阅读全文

posted @ 2018-08-26 15:00 Rocin 阅读(278) 评论(0) 推荐(0)

爬虫，工具 - Splash

摘要：What is it? Splash is a javascript rendering service. It’s a lightweight web browser with an HTTP API http://splash.readthedocs.io/en/stable/ 用途爬虫方面可阅读全文

posted @ 2018-08-14 19:53 Rocin 阅读(381) 评论(0) 推荐(0)

爬虫 - 抓取新浪新闻中心每周点击量排行

摘要：思路分析 1. 用reuqests发送GET请求，发现抓取的信息的数据源(url)包含在返回的HTML中，获取该数据源(url)，再用requests库发送GET请求获取数据；(这个不同于AJAX，因为数据源不用在Chrome debugger中查看XHR对象获取。网站的原理是从数据源获取数据，然后阅读全文

posted @ 2018-07-18 14:29 Rocin 阅读(703) 评论(0) 推荐(0)

爬虫 - XPath

摘要：定义 XPath，全称 XML Path Language，即 XML 路径语言，它是一门在XML文档中查找信息的语言，是一个文档解析库。XPath 最初设计是用来搜寻XML文档的，但是它同样适用于 HTML 文档的搜索。所以在做爬虫时，可以使用 XPath 来做相应的信息抽取，定位节点。 XPa 阅读全文

posted @ 2018-07-12 16:21 Rocin 阅读(167) 评论(0) 推荐(0)

Rocinante

ASAP - always strive and prosper.
WTF - What's true for love, is true for code.
Manjaro - yyds!

随笔分类 - 爬虫

公告

Rocinante

ASAP - always strive and prosper. WTF - What's true for love, is true for code. ********************************Manjaro - yyds!********************************

随笔分类 - 爬虫

公告

ASAP - always strive and prosper.
WTF - What's true for love, is true for code.
Manjaro - yyds!