随笔分类 - 爬虫
破解滑动验证码
摘要:一、介绍 一些网站会在正常的账号密码认证之外加一些验证码,以此来明确地区分人/机行为,从一定程度上达到反爬的效果,对于简单的校验码Tesserocr就可以搞定,如下 但一些网站加入了滑动验证码,最典型的要属于极验滑动认证了,极验官网:http://www.geetest.com/,下图是极验的登录界
阅读全文
异步爬虫
摘要:一 线程池实现异步爬虫 使用线程池爬取梨视频数据 二 单线程+异步协程(推荐): event_loop: 事件循环, 相当于一个无限循环, 我们可以把一些函数注册到这个事件循环上,当满足某些条件的时候,函数就会被循环执行coroutine:协程对象, 我们可以将协程对象注册到事件循环中, 它会被事件
阅读全文
Redis实现分布式爬虫
摘要:redis分布式爬虫 概念:多台机器上可以执行同一个爬虫程序,实现网站数据的爬取 原生的scrapy是不可以实现分布式爬虫, 原因如下: 调度器无法共享 管道无法共享 scrapy-redis组件:专门为scrapy开发的一套组件。 该组件可以让scrapy实现分布式 pip install scr
阅读全文
Scrapy框架高级操作
摘要:一 爬取多URL 实现同一个网址的多个url爬取 二 发起post请求 # 将百度翻译中指定词条对应的翻译结果进行获取 三 实现对cookie的操作 四 代理操作 下载中间件的作用: 拦截请求,可以将请求的ip进行更换 流程: (1)下载中间件类的自制定 # 自定义一个下载中间件的类, 在类中事先p
阅读全文
Scrapy框架实现持久化存储
摘要:硬盘存储 (1) 基于终端指令 * 保证parse方法返回一个可迭代类型的对象(存储解析到页面内容) * 使用终端指定完成数据存储到磁盘文件的操作 scrapy crawl 爬虫文件名称 -o 磁盘文件.后缀 (2) 基于管道 * items: 存储解析到的页面数据 * piplines: 处理持久
阅读全文
Scrapy框架的介绍和基本使用
摘要:一 Scrapy框架的简介 为了爬取网站数据而编写的一款应用框架,所谓的框架其实就是一个集成了相应的功能且具有很强通用性的项目模板 该框架提供了高性能的异步下载,解析和持久化等功能 二 安装 linux or max os : windows: 三 基础使用 (1) 创建一个工程: scrapy s
阅读全文
处理页面动态加载数据
摘要:一 selenium selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 安装:pip
阅读全文
爬虫数据解析
摘要:一 正则表达式 示例:使用正则对糗事百科中的图片数据进行解析和下载 二 xpath在爬虫的使用流程 下载:pip instal lxml 导包: from lxml import etree 测试页面数据: 常用xpath表达式 实例演示: xpat插件 浏览器中的一个插件可以直接将xpath表达式
阅读全文
Python爬虫基础
摘要:一 爬虫简介 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。 能实现爬虫的编程语言: 1.php:可以实现爬虫。php被号称是全世界最优美的语言(当然是其自己号称的,就是王婆卖瓜的意思),但是php在实现爬虫中支持多线程和多进程方面做的不好。 2.java:可以实现爬虫。ja
阅读全文
浙公网安备 33010602011771号