爬虫 - 随笔分类 - cs_1993

破解滑动验证码

摘要：一、介绍一些网站会在正常的账号密码认证之外加一些验证码，以此来明确地区分人/机行为，从一定程度上达到反爬的效果，对于简单的校验码Tesserocr就可以搞定，如下但一些网站加入了滑动验证码，最典型的要属于极验滑动认证了，极验官网：http://www.geetest.com/，下图是极验的登录界阅读全文

posted @ 2019-09-16 16:08 cs_1993 阅读(871) 评论(0) 推荐(0)

异步爬虫

摘要：一线程池实现异步爬虫使用线程池爬取梨视频数据二单线程+异步协程(推荐)： event_loop: 事件循环, 相当于一个无限循环, 我们可以把一些函数注册到这个事件循环上，当满足某些条件的时候，函数就会被循环执行coroutine:协程对象, 我们可以将协程对象注册到事件循环中, 它会被事件阅读全文

posted @ 2019-08-21 15:17 cs_1993 阅读(275) 评论(0) 推荐(0)

Redis实现分布式爬虫

摘要：redis分布式爬虫概念：多台机器上可以执行同一个爬虫程序,实现网站数据的爬取原生的scrapy是不可以实现分布式爬虫, 原因如下：调度器无法共享管道无法共享 scrapy-redis组件：专门为scrapy开发的一套组件。该组件可以让scrapy实现分布式 pip install scr 阅读全文

posted @ 2019-08-19 14:21 cs_1993 阅读(1328) 评论(0) 推荐(0)

Scrapy框架高级操作

摘要：一爬取多URL 实现同一个网址的多个url爬取二发起post请求 # 将百度翻译中指定词条对应的翻译结果进行获取三实现对cookie的操作四代理操作下载中间件的作用：拦截请求,可以将请求的ip进行更换流程： (1)下载中间件类的自制定 # 自定义一个下载中间件的类, 在类中事先p 阅读全文

posted @ 2019-08-16 10:54 cs_1993 阅读(332) 评论(0) 推荐(0)

Scrapy框架实现持久化存储

摘要：硬盘存储 (1) 基于终端指令 * 保证parse方法返回一个可迭代类型的对象(存储解析到页面内容) * 使用终端指定完成数据存储到磁盘文件的操作 scrapy crawl 爬虫文件名称 -o 磁盘文件.后缀 (2) 基于管道 * items: 存储解析到的页面数据 * piplines：处理持久阅读全文

posted @ 2019-08-15 10:22 cs_1993 阅读(203) 评论(0) 推荐(0)

Scrapy框架的介绍和基本使用

摘要：一 Scrapy框架的简介为了爬取网站数据而编写的一款应用框架,所谓的框架其实就是一个集成了相应的功能且具有很强通用性的项目模板该框架提供了高性能的异步下载，解析和持久化等功能二安装 linux or max os ： windows: 三基础使用 (1) 创建一个工程: scrapy s 阅读全文

posted @ 2019-08-14 10:37 cs_1993 阅读(872) 评论(0) 推荐(0)

处理页面动态加载数据

摘要：一 selenium selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器安装：pip 阅读全文

posted @ 2019-08-12 10:13 cs_1993 阅读(1805) 评论(0) 推荐(0)

爬虫数据解析

摘要：一正则表达式示例：使用正则对糗事百科中的图片数据进行解析和下载二 xpath在爬虫的使用流程下载：pip instal lxml 导包： from lxml import etree 测试页面数据: 常用xpath表达式实例演示： xpat插件浏览器中的一个插件可以直接将xpath表达式阅读全文

posted @ 2019-08-09 11:04 cs_1993 阅读(349) 评论(0) 推荐(0)

Python爬虫基础

摘要：一爬虫简介爬虫就是通过编写程序模拟浏览器上网，然后让其去互联网上抓取数据的过程。能实现爬虫的编程语言： 1.php：可以实现爬虫。php被号称是全世界最优美的语言（当然是其自己号称的，就是王婆卖瓜的意思），但是php在实现爬虫中支持多线程和多进程方面做的不好。 2.java：可以实现爬虫。ja 阅读全文

posted @ 2019-08-06 10:48 cs_1993 阅读(438) 评论(0) 推荐(0)

随笔分类 - 爬虫