随笔分类 -  爬虫

摘要:crawlSpider 是Spider的一个子类。自己派生出独有的方法和属性。功能:作用全站数据爬取场景使用: - 创建工程 - cd 工程 - 创建爬虫文件: - 创建一个基于CrawlSpider的爬虫文件 - 指令:scrapy genspider -t crawl spiderName ww 阅读全文
posted @ 2020-07-10 16:24 电竞杰森斯坦森 阅读(364) 评论(0) 推荐(0)
摘要:scrapy图片数据(二进制数据)爬取 1、在爬虫文件中解析出图片地址+图片名称封装到item对象提交给管道2、在管道文件中: - from scrapy.pipelines.images import ImagesPipeline - 封装一个管道类,继承与ImagesPipeline - 重写父 阅读全文
posted @ 2020-07-09 15:29 电竞杰森斯坦森 阅读(1383) 评论(0) 推荐(0)
摘要:scrapy基本介绍 基本介绍:基于异步爬虫的框架。高性能的数据解析,高性能的持久化存储,全站数据爬取,增量式爬虫,分布式爬虫...... scrapy环境的安装 - Linux: pip install scrapy - Windows: a. pip install wheel b. 下载twi 阅读全文
posted @ 2020-07-08 15:50 电竞杰森斯坦森 阅读(278) 评论(0) 推荐(0)
摘要:案例介绍 url : https://www.aqistudy.cn/html/city_detail.html 案例涉及的反爬: 动态加载数据 加密响应数据 js混淆 js加密 js逆向 分析: 在页面中修改了查询条件后,点击查询按钮,会发起一个ajax请求,请求到页面中指定的数据。 在ajax请 阅读全文
posted @ 2020-07-07 21:47 电竞杰森斯坦森
摘要:selenium介绍 基于浏览器自动化的一个模块 selenium和爬虫之间的关联 1.便捷去捕获动态加载的数据 页面的可见即可得 2.便捷的实现模拟登录 selenium的缺点: 效率太慢 优点: 可见即可得 selenium的基本使用 下载:pip install selenium 事先准备好一 阅读全文
posted @ 2020-07-07 21:08 电竞杰森斯坦森 阅读(232) 评论(0) 推荐(0)
摘要:今日内容 模拟登录 异步爬虫 - 线程池 - 单线程+多任务异步协程 - 生产者消费者模式 模拟登录 验证码的识别 线上的打码平台 超级鹰 url:https://www.chaojiying.com/about.html 使用流程: 注册:注册一个用户中心的账号 登录:用户中心的身份 创建一个软件 阅读全文
posted @ 2020-07-06 15:29 电竞杰森斯坦森 阅读(408) 评论(0) 推荐(0)
摘要:数据解析 正则(几乎不用) bs4 xpath(***) pyquery(自学) 在爬虫中为什么需要使用数据解析? 数据解析作用:帮助我们可以实现聚焦爬虫(爬取局部数据) 聚焦爬虫实现流程: 1.指定url 2.发起请求 3.获取响应数据 4.数据解析 5.持久化存储 数据解析通用原理 1.html 阅读全文
posted @ 2020-07-04 13:43 电竞杰森斯坦森
摘要:爬虫介绍 Anaconda python中基于数据分析+机器学习的一个集成环境 jupyter Anaconda提供的一款基于浏览器的可视化编码工具 什么爬虫 就是通过编写程序让其模拟浏览器上网,然后再互联网中抓取数据的过程 爬虫的分类 通用爬虫:抓取一整张页面源码数据 聚焦爬虫:抓取一整张页面中的 阅读全文
posted @ 2020-07-02 21:50 电竞杰森斯坦森 阅读(247) 评论(0) 推荐(0)