爬虫博文 - 随笔分类 - 疾风_lu

爬虫实战篇---使用Scrapy框架进行汽车之家宝马图片下载爬虫

摘要：（1）、前言 Scrapy框架为文件和图片的下载专门提供了两个Item Pipeline 它们分别是： FilePipeline ImagesPipeline （2）、使用Scrapy内置的下载方法的好处 1、可以有效避免重复下载 2、方便指定下载路径 3、方便格式转换，例如可以有效的将图片转换为p 阅读全文

posted @ 2018-06-15 17:36 疾风_lu 阅读(2228) 评论(2) 推荐(1)

爬虫实战篇---使用Scrapy框架进行模拟登录(包括借助阿里云服务自动识别验证码)

摘要：（1）、前言原理分析：我们编写代码模拟向网站发出登录请求，也就是提交包含登录信息的表单（用户名、密码等）。实现方式：当我们想在请求数据时发送post请求，这时候需要借助Request的子类FormRequest来实现，如果想进一步在爬虫一开始时就发送post请求，那么我们需要重写start_re 阅读全文

posted @ 2018-06-13 23:22 疾风_lu 阅读(8389) 评论(4) 推荐(1)

Scrapy爬虫框架---CrawlSpider类

摘要：（1）、简介在糗事百科爬虫中我们的爬虫是继承scrapy.Spider类的，这也是基本的scrapy框架爬虫，在这个爬虫中我们自己在解析完整个页面后再获取下一页的url,然后重新发送了一个请求，而使用CrawlsSpider类可以帮助我们对url提出条件，只要满足这个条件，都进行爬取，CrawlS 阅读全文

posted @ 2018-06-12 14:21 疾风_lu 阅读(1368) 评论(1) 推荐(0)

爬虫实战篇---糗事百科爬虫(scrapy框架)

摘要：前言：目标确定（1）、创建项目 scrapy startproject qsbk （2）、技术路线 scrapy框架的使用（3）、创建爬虫 scrapy genspider spider qiushibaike.com （爬虫名不能与项目名重名）（3）、实战改写settings.py 设置请阅读全文

posted @ 2018-06-11 23:19 疾风_lu 阅读(1317) 评论(0) 推荐(0)

爬虫实战篇---12306抢票爬虫

摘要：（1）、前言（此代码经过我的实测具有较强的实用型)每逢佳节，大家对于回家抢票这件事是不是特别头疼呢？今天我在网上发现了这个代码，通过一天的学习，与大家分析下，大家可以直接拿来进行12306抢票，也可以进行优化，进行诸如演唱会的抢票，等等。该代码主要使用了模拟浏览器方式而并没有采用分析请求。（2）阅读全文

posted @ 2018-06-09 18:58 疾风_lu 阅读(20898) 评论(5) 推荐(6)

爬虫知识储备篇---分析http请求

摘要：（1）、为何需要进行HTTP请求分析答：方便我们编写的爬虫精准定位爬取目标（2）、知识储备 1、什么是抓包？抓包：抓取客户端与服务器之间进行通信时产生的数据包 2、了解抓包工具:chrome下的开发者模式，使用F12即可打开功能结构分析：（参考文档：http://www.css88.com/ 阅读全文

posted @ 2018-06-07 09:46 疾风_lu 阅读(1795) 评论(0) 推荐(3)

爬虫实战篇---数据入库之去重与数据库

摘要：（1）、数据去重简介 1、数据去重：指在一个数字文件集合中，找出重复的数据并将其删除，只保留唯一的数据单元的过程。 2、分类： url去重：直接筛选掉重复的url 数据库去重：利用数据库的特性删除重复的数据 3、图解 4、为何需要进行url去重？运行爬虫时，我们不需要一个网站被下载多次，这会导致c 阅读全文

posted @ 2018-06-01 23:53 疾风_lu 阅读(10115) 评论(0) 推荐(2)

爬虫实战篇（模拟登录）---我们以模拟去哪儿网为例

摘要：（1）、登录实质互联网上的部分网站需要登录后方能访问，当我们打开网页并登录，就会在客户端生成Cookies（相当于个人身份证）信息，Cookies中包含了SessionId信息，登录后的请求都会带上Cookies发送给服务器，服务器会根据Cookies判断出对应的SessionID，进而找到会话，阅读全文

posted @ 2018-05-31 11:18 疾风_lu 阅读(8006) 评论(5) 推荐(0)

requests库详解

摘要：1、requests库简介:http://docs.python-requests.org/zh_CN/latest/user/quickstart.html(官网) What is requests? 答：基于urllib库的简单易用的http库 2、安装 pip3 install request 阅读全文

posted @ 2018-05-30 20:08 疾风_lu 阅读(1006) 评论(0) 推荐(0)

爬取拉钩网职位信息写入mongodb数据库（小白学爬虫--实战篇1）

摘要：（1）、环境准备 requests + pymongo 库（2）、页面分析首先登录拉钩并输入关键字：爬虫工程师我们可以发现这些数据都是js加载的接着打开chrome的开发者工具选项并勾选XHR 我们发现我们需要的信息包含在result中我们通过观察发现该请求为post请求最后我们需要模拟阅读全文

posted @ 2018-05-29 22:56 疾风_lu 阅读(1267) 评论(0) 推荐(0)

Scrapy爬虫框架（实战篇）【Scrapy框架对接Splash抓取javaScript动态渲染页面】

摘要：（1）、前言动态页面：HTML文档中的部分是由客户端运行JS脚本生成的，即服务器生成部分HTML文档内容，其余的再由客户端生成静态页面：整个HTML文档是在服务器端生成的，即服务器生成好了，再发送给我们客户端这里我们可以观察一个典型的供我们练习爬虫技术的网站：quotes.toscrape.c 阅读全文

posted @ 2018-05-23 23:26 疾风_lu 阅读(24279) 评论(3) 推荐(0)

Scrapy爬虫框架第八讲【项目实战篇：知乎用户信息抓取】--本文参考静觅博主所写

摘要：思路分析：（1）选定起始人（即选择关注数和粉丝数较多的人--大V）（2）获取该大V的个人信息（3）获取关注列表用户信息（4）获取粉丝列表用户信息（5）重复（2）（3）（4）步实现全知乎用户爬取实战演练：（1）、创建项目：scrapy startproject zhijutest （2）阅读全文

posted @ 2018-05-21 14:26 疾风_lu 阅读(2482) 评论(4) 推荐(2)

Scrapy爬虫框架第七讲【ITEM PIPELINE用法】

摘要：ITEM PIPELINE用法详解： ITEM PIPELINE作用：清理HTML数据验证爬取的数据(检查item包含某些字段) 去重(并丢弃)【预防数据去重，真正去重是在url,即请求阶段做】将爬取结果保存到数据库中 ITEM PIPELINE核心方法（4个）（1）、open_spider 阅读全文

posted @ 2018-05-18 23:04 疾风_lu 阅读(6096) 评论(0) 推荐(0)

Scrapy爬虫框架第五讲（linux环境)【download middleware用法】

摘要：DOWNLOAD MIDDLEWRE用法详解通过上面的Scrapy工作架构我们对其功能进行下总结：（1）、在Scheduler调度出队列时的Request送给downloader下载前对其进行修改（2）、在下载生成后的Response发送给Spider并在Spider对其解析之前对其修改【这阅读全文

posted @ 2018-05-17 16:31 疾风_lu 阅读(2424) 评论(0) 推荐(0)

Windows下Scrapy框架的安装

摘要：总纲：(建议小伙伴们开启系统代理，代理最好选国外) 1、安装wheel pip install wheel 2、安装lxml http:www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 3、安装PyOpenssl https://pypi.python.org/pyp 阅读全文

posted @ 2018-05-16 23:03 疾风_lu 阅读(327) 评论(0) 推荐(0)

Scrapy爬虫框架补充内容三(代理及其基本原理介绍)

摘要：前言：（本文参考维基百科及百度百科所写）当我们使用爬虫抓取数据时，有时会产生错误比如：突然跳出来了403 Forbidden 或者网页上出现以下提示：您的ip访问频率太高或者时不时跳出一个验证码需要你输入，这是由于网站采取了反爬虫措施：服务器会检查某个固定的ip在单位时间内请求的次数，如果发现请阅读全文

posted @ 2018-05-15 18:44 疾风_lu 阅读(1064) 评论(0) 推荐(0)

Scrapy爬虫框架第四讲(Linux环境）【Selector的使用】

摘要：下面我们来学习Selector的具体使用：（参考文档：http://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/selectors.html） Selector简介：Scrapy框架提供了自己的一套数据提取方法即Selector（选择器），它是基于lxml构阅读全文

posted @ 2018-05-14 14:08 疾风_lu 阅读(835) 评论(0) 推荐(0)

Scrapy爬虫框架补充内容一(Linux环境)【Scrapy爬虫框架结构及工作原理】

摘要：Scrapy爬虫框架结构及工作原理详解 scrapy框架的框架结构如下：组件分析： ENGINE:(核心)：处理整个框架的数据流，各个组件在其控制下协同工作 SCHEDULER（调度器）：负责接收引擎发送来的请求，并压入队列，在引擎再次请求时返回 SPIDER（蜘蛛）：负责从网页中提取指定的信息，阅读全文

posted @ 2018-05-13 23:25 疾风_lu 阅读(624) 评论(0) 推荐(0)

Scrapy爬虫框架第三讲（linux环境）【Spider的使用】

摘要：下面我们来学习下Spider的具体使用：我们已上节的百度阅读爬虫为例来进行分析： 1、继承scrap.Spider 摘自官方文档意思如下：scrapy框架为我们提供了一个Spider基类，我们编写的spider要继承它，如上面我们编写了一个BookSpider类，而这个类是继承于scrapy.S 阅读全文

posted @ 2018-05-13 16:32 疾风_lu 阅读(944) 评论(0) 推荐(0)

Scrapy爬虫框架第二讲(Linux环境）【初识Scrapy框架】

摘要：在系统学习Scrapy前我们首先在看一个实际的项目，从宏观上把握下Scrapy爬虫框架的流程（填空题训练开始了，小伙伴们准备好了吗？）：这里我选取了百度阅读，我们来爬取所有新书榜的书单包括其书名；评分；出版商；价格信息 /目标站点：https://yuedu.baidu.com/rank/newb 阅读全文

posted @ 2018-05-12 16:26 疾风_lu 阅读(663) 评论(0) 推荐(0)

随笔分类 - 爬虫博文

公告