随笔分类 - 爬虫博文
爬虫实战篇---使用Scrapy框架进行汽车之家宝马图片下载爬虫
摘要:(1)、前言 Scrapy框架为文件和图片的下载专门提供了两个Item Pipeline 它们分别是: FilePipeline ImagesPipeline (2)、使用Scrapy内置的下载方法的好处 1、可以有效避免重复下载 2、方便指定下载路径 3、方便格式转换,例如可以有效的将图片转换为p
阅读全文
爬虫实战篇---使用Scrapy框架进行模拟登录(包括借助阿里云服务自动识别验证码)
摘要:(1)、前言 原理分析:我们编写代码模拟向网站发出登录请求,也就是提交包含登录信息的表单(用户名、密码等)。 实现方式:当我们想在请求数据时发送post请求,这时候需要借助Request的子类FormRequest来实现,如果想进一步在爬虫一开始时就发送post请求,那么我们需要重写start_re
阅读全文
Scrapy爬虫框架---CrawlSpider类
摘要:(1)、简介 在糗事百科爬虫中我们的爬虫是继承scrapy.Spider类的,这也是基本的scrapy框架爬虫,在这个爬虫中我们自己在解析完整个页面后再获取下一页的url,然后重新发送了一个请求,而使用CrawlsSpider类可以帮助我们对url提出条件,只要满足这个条件,都进行爬取,CrawlS
阅读全文
爬虫实战篇---糗事百科爬虫(scrapy框架)
摘要:前言:目标确定 (1)、创建项目 scrapy startproject qsbk (2)、技术路线 scrapy框架的使用 (3)、创建爬虫 scrapy genspider spider qiushibaike.com (爬虫名不能与项目名重名) (3)、实战 改写settings.py 设置请
阅读全文
爬虫实战篇---12306抢票爬虫
摘要:(1)、前言 (此代码经过我的实测具有较强的实用型)每逢佳节,大家对于回家抢票这件事是不是特别头疼呢?今天我在网上发现了这个代码,通过一天的学习,与大家分析下,大家可以直接拿来进行12306抢票,也可以进行优化,进行诸如演唱会的抢票,等等。该代码主要使用了模拟浏览器方式而并没有采用分析请求。 (2)
阅读全文
爬虫知识储备篇---分析http请求
摘要:(1)、为何需要进行HTTP请求分析 答:方便我们编写的爬虫精准定位爬取目标 (2)、知识储备 1、什么是抓包? 抓包:抓取客户端与服务器之间进行通信时产生的数据包 2、了解抓包工具:chrome下的开发者模式,使用F12即可打开 功能结构分析:(参考文档:http://www.css88.com/
阅读全文
爬虫实战篇---数据入库之去重与数据库
摘要:(1)、数据去重简介 1、数据去重:指在一个数字文件集合中,找出重复的数据并将其删除,只保留唯一的数据单元的过程。 2、分类: url去重:直接筛选掉重复的url 数据库去重:利用数据库的特性删除重复的数据 3、图解 4、为何需要进行url去重? 运行爬虫时,我们不需要一个网站被下载多次,这会导致c
阅读全文
爬虫实战篇(模拟登录)---我们以模拟去哪儿网为例
摘要:(1)、登录实质 互联网上的部分网站需要登录后方能访问,当我们打开网页并登录,就会在客户端生成Cookies(相当于个人身份证)信息,Cookies中包含了SessionId信息,登录后的请求都会带上Cookies发送给服务器,服务器会根据Cookies判断出对应的SessionID,进而找到会话,
阅读全文
requests库详解
摘要:1、requests库简介:http://docs.python-requests.org/zh_CN/latest/user/quickstart.html(官网) What is requests? 答:基于urllib库的简单易用的http库 2、安装 pip3 install request
阅读全文
爬取拉钩网职位信息写入mongodb数据库(小白学爬虫--实战篇1)
摘要:(1)、环境准备 requests + pymongo 库 (2)、页面分析 首先登录拉钩并输入关键字:爬虫工程师 我们可以发现这些数据都是js加载的 接着打开chrome的开发者工具选项并勾选XHR 我们发现我们需要的信息包含在result中 我们通过观察发现该请求为post请求 最后我们需要模拟
阅读全文
Scrapy爬虫框架(实战篇)【Scrapy框架对接Splash抓取javaScript动态渲染页面】
摘要:(1)、前言 动态页面:HTML文档中的部分是由客户端运行JS脚本生成的,即服务器生成部分HTML文档内容,其余的再由客户端生成 静态页面:整个HTML文档是在服务器端生成的,即服务器生成好了,再发送给我们客户端 这里我们可以观察一个典型的供我们练习爬虫技术的网站:quotes.toscrape.c
阅读全文
Scrapy爬虫框架第八讲【项目实战篇:知乎用户信息抓取】--本文参考静觅博主所写
摘要:思路分析: (1)选定起始人(即选择关注数和粉丝数较多的人--大V) (2)获取该大V的个人信息 (3)获取关注列表用户信息 (4)获取粉丝列表用户信息 (5)重复(2)(3)(4)步实现全知乎用户爬取 实战演练: (1)、创建项目:scrapy startproject zhijutest (2)
阅读全文
Scrapy爬虫框架第七讲【ITEM PIPELINE用法】
摘要:ITEM PIPELINE用法详解: ITEM PIPELINE作用: 清理HTML数据 验证爬取的数据(检查item包含某些字段) 去重(并丢弃)【预防数据去重,真正去重是在url,即请求阶段做】 将爬取结果保存到数据库中 ITEM PIPELINE核心方法(4个) (1)、open_spider
阅读全文
Scrapy爬虫框架第五讲(linux环境)【download middleware用法】
摘要:DOWNLOAD MIDDLEWRE用法详解 通过上面的Scrapy工作架构我们对其功能进行下总结: (1)、在Scheduler调度出队列时的Request送给downloader下载前对其进行修改 (2)、在下载生成后的Response发送给Spider并在Spider对其解析之前对其修改 【这
阅读全文
Windows下Scrapy框架的安装
摘要:总纲:(建议小伙伴们开启系统代理,代理最好选国外) 1、安装wheel pip install wheel 2、安装lxml http:www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 3、安装PyOpenssl https://pypi.python.org/pyp
阅读全文
Scrapy爬虫框架补充内容三(代理及其基本原理介绍)
摘要:前言:(本文参考维基百科及百度百科所写) 当我们使用爬虫抓取数据时,有时会产生错误比如:突然跳出来了403 Forbidden 或者网页上出现以下提示:您的ip访问频率太高 或者时不时跳出一个验证码需要你输入,这是由于网站采取了反爬虫措施:服务器会检查某个固定的ip在单位时间内请求的次数,如果发现请
阅读全文
Scrapy爬虫框架第四讲(Linux环境)【Selector的使用】
摘要:下面我们来学习Selector的具体使用:(参考文档:http://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/selectors.html) Selector简介:Scrapy框架提供了自己的一套数据提取方法即Selector(选择器),它是基于lxml构
阅读全文
Scrapy爬虫框架补充内容一(Linux环境)【Scrapy爬虫框架结构及工作原理】
摘要:Scrapy爬虫框架结构及工作原理详解 scrapy框架的框架结构如下: 组件分析: ENGINE:(核心):处理整个框架的数据流,各个组件在其控制下协同工作 SCHEDULER(调度器):负责接收引擎发送来的请求,并压入队列,在引擎再次请求时返回 SPIDER(蜘蛛):负责从网页中提取指定的信息,
阅读全文
Scrapy爬虫框架第三讲(linux环境)【Spider的使用】
摘要:下面我们来学习下Spider的具体使用: 我们已上节的百度阅读爬虫为例来进行分析: 1、继承scrap.Spider 摘自官方文档 意思如下:scrapy框架为我们提供了一个Spider基类,我们编写的spider要继承它,如上面我们编写了一个BookSpider类,而这个类是继承于scrapy.S
阅读全文
Scrapy爬虫框架第二讲(Linux环境)【初识Scrapy框架】
摘要:在系统学习Scrapy前我们首先在看一个实际的项目,从宏观上把握下Scrapy爬虫框架的流程(填空题训练开始了,小伙伴们准备好了吗?): 这里我选取了百度阅读,我们来爬取所有新书榜的书单包括其书名;评分;出版商;价格信息 /目标站点:https://yuedu.baidu.com/rank/newb
阅读全文
浙公网安备 33010602011771号