随笔分类 -  爬虫

摘要:爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式 [TOC] 1. scrapy图片的爬取/基于管道类实现 爬取流程: 1. 爬虫类中将解析到的图片地址存储到item,将item提交给指定的管道 2. 在管道文件中导包:from 阅读全文
posted @ 2019-12-11 08:36 LBZHK 阅读(355) 评论(0) 推荐(0)
摘要:爬虫06 /scrapy框架 [TOC] 1. scrapy概述/安装 异步的爬虫框架 高性能的数据解析,持久化存储,全栈数据的爬取,中间件,分布式 Twisted:就是scrapy的异步机制,主要体现在下载器 框架:就是一个集成好了各种功能且具有很强通用性的一个项目模板。 环境安装: Linux: 阅读全文
posted @ 2019-12-09 18:57 LBZHK 阅读(315) 评论(0) 推荐(0)
摘要:爬虫05 /js加密/js逆向、常用抓包工具、移动端数据爬取 [TOC] 1. js加密、js逆向:案例1 需求: 将这个网页中的代理ip和端口号进行爬取 分析: 1. 爬取的数据是动态加载 2. 并且我们进行了抓包工具的全局搜索,没有查找到结果 意味着:爬取的数据从服务端请求到的是加密的密文数据 阅读全文
posted @ 2019-12-06 21:39 LBZHK 阅读(1971) 评论(0) 推荐(0)
摘要:爬虫04 /asyncio、selenium规避检测、动作链、无头浏览器 [TOC] 1. 协程asyncio 协程基础 特殊的函数 就是async关键字修饰的一个函数的定义 特殊之处: 特殊函数被调用后会返回一个协程对象 特殊函数调用后内部的程序语句没有被立即执行 协程 对象。协程==特殊的函数。 阅读全文
posted @ 2019-12-06 08:17 LBZHK 阅读(1373) 评论(0) 推荐(0)
摘要:爬虫03 /代理、cookie处理、模拟登录、提升爬虫效率 [TOC] 1. 代理 代理概念:代理服务器。 作用:接收请求==》请求转发。 代理和爬虫之间的关联: 可以使用请求转发的机制使得目的服务器接收到的请求对应ip的一个改变。 为什么要使用代理改变请求的ip地址? 爬虫程序在短时间内对指定的服 阅读全文
posted @ 2019-12-04 20:00 LBZHK 阅读(327) 评论(0) 推荐(0)
摘要:爬虫02 /数据解析 [TOC] 1. 数据解析概述 什么是数据解析,数据解析可以干什么? 概念:就是将一组数据中的局部数据进行提取。 作用:使用来实现聚焦爬虫 数据解析的通用原理 问题:html展示的数据可以存储在哪里? 标签之中 属性中 1.标签定位 2.取文本或者取属性 数据解析的常用方法 r 阅读全文
posted @ 2019-12-03 22:40 LBZHK 阅读(203) 评论(0) 推荐(0)
摘要:爬虫02 /jupyter、爬虫概述、requests基本使用 [TOC] 1. jupyter的基本使用 什么是anaconda 是一个基于数据分析+机器学习的集成环境。 什么是jupyter(超级终端) 是anaconda中的一个基于浏览器可视化的编码工具 在指定目录下启动终端:录入jupyte 阅读全文
posted @ 2019-12-03 08:05 LBZHK 阅读(940) 评论(0) 推荐(0)
摘要:爬虫前篇 /https协议原理剖析 [TOC] https是基于http和SSL/TLS实现的一个协议,他可以保证在网络上传输的数据都是加密的,从而保证数据安全。 接下来我们从http协议开始,提出想法并逐步进行分析,最终实现Https。 1. http协议是不安全的 在https诞生之前,所有网站 阅读全文
posted @ 2019-12-02 07:50 LBZHK 阅读(338) 评论(0) 推荐(0)