摘要: 一、分布式爬虫 前面我们了解Scrapy爬虫框架的基本用法 这些框架都是在同一台主机运行的 爬取效率有限 如果多台主机协同爬取 爬取效率必然成倍增长这就是分布式爬虫的优势 1. 分布式爬虫基本原理 1.1 分布式爬虫架构 Scrapy 单机爬虫中有一个本地爬取队列Queue 这个队列是利用 dequ 阅读全文
posted @ 2019-02-13 10:57 贫道从来不吃素 阅读(1078) 评论(0) 推荐(0) 编辑
摘要: 思路 选定起始人 选一个关注数或者粉丝数多的大V作为爬虫起始点 获取粉丝和关注列表 通过知乎接口获得该大V的粉丝列表和关注列表 获取列表用户信息 获取列表每个用户的详细信息 获取每个用户的粉丝和关注 进一步对列表中的每个用户 获取他们的粉丝和关注列表实现递归爬取 起始点 https://www.zh 阅读全文
posted @ 2019-02-13 10:52 贫道从来不吃素 阅读(975) 评论(0) 推荐(0) 编辑
摘要: 一、scrapy框架的使用 前面我们讲了pyspider 它可以快速的完成爬虫的编写 不过pyspider也有一些缺点 例如可配置化不高 异常处理能力有限对于一些反爬虫程度非常强的网站 爬取显得力不从心 1. scrapy框架介绍 scrapy是一个基于Twisted 的异步处理框架 是纯pytho 阅读全文
posted @ 2019-02-13 10:40 贫道从来不吃素 阅读(566) 评论(0) 推荐(0) 编辑
摘要: 二、pyspider框架的使用 简介 pyspider是由国人binux 编写的强大的网络爬虫系统 github地址 : 官方文档 pyspider 带有强大的WebUI 脚本编辑器 任务监控器 项目管理器 以及结果处理器 支持多种数据库后端 多种消息队列 JavaScript渲染页面的爬取 使用起 阅读全文
posted @ 2019-02-13 10:25 贫道从来不吃素 阅读(562) 评论(0) 推荐(0) 编辑
摘要: 一、app爬取 前面都是介绍爬取Web网页的内容,随着移动互联网的发展,越来越多的企业并没有提供Web页面端的服务,而是直接开发了App,更多信息都是通过App展示的 App爬取相比Web端更加容易 反爬虫能力没有那么强,而且数据大多数是以JSON形式传递的 解析更加简单 在Web端 我们可以通过浏 阅读全文
posted @ 2019-02-13 10:22 贫道从来不吃素 阅读(1173) 评论(0) 推荐(0) 编辑
摘要: 一、代理池的维护 上面我们利用代理可以解决目标网站封IP的问题 在网上有大量公开的免费代理 或者我们也可以购买付费的代理IP但是无论是免费的还是付费的,都不能保证都是可用的 因为可能此IP被其他人使用来爬取同样的目标站点而被封禁或者代理服务器突然故障或者网络繁忙 一旦选用了一个不可用的代理,这势必会 阅读全文
posted @ 2019-02-13 10:17 贫道从来不吃素 阅读(888) 评论(0) 推荐(0) 编辑
摘要: 一、验证码识别 1.图形验证码的识别 识别图形验证码需要 tesserocr 库 OCR技术识别(光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。)例如 中国知网注册页面 http://my.cnki.net/elibregister/commonRegister.aspxt 阅读全文
posted @ 2019-02-12 17:31 贫道从来不吃素 阅读(1576) 评论(0) 推荐(0) 编辑
摘要: 一、使用selenium 模拟浏览器操作爬取淘宝商品信息 之前我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取。比如,淘宝,它的整个页面数据确实也是通过Ajax获取的,但是这些Ajax接口参数比较复杂,可能会包含加密密钥等,所以如果想自己构造Ajax参数 阅读全文
posted @ 2019-02-12 17:09 贫道从来不吃素 阅读(553) 评论(0) 推荐(0) 编辑
摘要: Splash是一个JavaScript渲染服务 是一个带有HTTP API的轻量级浏览器 同时对接了python的Twisted 和QT库 利用它可以实现对动态渲染页面的抓取 功能介绍 安装准备 1.Docker的安装 (后面讲到时会详细讲 这里先安装) windows下安装: win10 64位 阅读全文
posted @ 2019-02-12 09:58 贫道从来不吃素 阅读(1389) 评论(0) 推荐(0) 编辑
摘要: 一、动态渲染页面爬取 上节课我们了解了Ajax分析和抓取方式,这其实也是JavaScript动态渲染页面的一种情形,通过直接分析Ajax,借助requests和urllib实现数据爬取 但是javaScript动态渲染布置Ajax一种 例如中国青年网(http://news.youth.cn/gn/ 阅读全文
posted @ 2019-02-12 09:37 贫道从来不吃素 阅读(2735) 评论(0) 推荐(0) 编辑