会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
cnkai
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
5
6
7
8
9
10
下一页
2017年8月23日
Scrapy实战篇(三)之爬取豆瓣电影短评
摘要: 今天的主要内容是爬取豆瓣电影短评,看一下网友是怎么评价最近的电影的,方便我们以后的分析,以以下三部电影:二十二,战狼,三生三世十里桃花为例。 由于豆瓣短评网页比较简单,且不存在动态加载的内容,我们下面就直接上代码。有一点需要注意的是,豆瓣短评的前几页不需要登录就可以看,但是后面的内容是是需要我们登录
阅读全文
posted @ 2017-08-23 15:17 cnkai
阅读(4521)
评论(7)
推荐(1)
2017年8月21日
Scrapy实战篇(二)之爬取链家网成交房源数据(下)
摘要: 在上一小节中,我们已经提取到了房源的具体信息,这一节中,我们主要是对提取到的数据进行后续的处理,以及进行相关的设置。 数据处理 我们这里以把数据存储到mongo数据库为例。 编写pipelines.py文件 非常简单的几步,就实现了将数据保存到mongo数据库中,所以说mongo数据库还是非常好用的
阅读全文
posted @ 2017-08-21 16:51 cnkai
阅读(4732)
评论(1)
推荐(0)
Scrapy实战篇(一)之爬取链家网成交房源数据(上)
摘要: 今天,我们就以 "链家网" 南京地区为例,来学习爬取链家网的成交房源数据。 这里推荐使用火狐浏览器,并且安装firebug和firepath两款插件,你会发现,这两款插件会给我们后续的数据提取带来很大的方便。 首先创建一个名称为lianjia的项目。 需求分析 爬取数据的第一步当然是确定我们的需求,
阅读全文
posted @ 2017-08-21 16:10 cnkai
阅读(5728)
评论(1)
推荐(0)
Scrapy学习篇(十三)之scrapy-splash
摘要: 之前我们学习的内容都是抓取静态页面,每次请求,它的网页全部信息将会一次呈现出来。 但是,像比如一些购物网站,他们的商品信息都是js加载出来的,并且会有ajax异步加载。像这样的情况,直接使用scrapy的Request请求是拿不到我们想要的信息的,解决的方法就是使用scrapy splash。 sc
阅读全文
posted @ 2017-08-21 11:21 cnkai
阅读(3197)
评论(0)
推荐(1)
2017年8月20日
Scrapy学习篇(十二)之设置随机IP代理(IPProxy)
摘要: 当我们需要大量的爬取网站信息时,除了切换User Agent之外,另外一个重要的方式就是设置IP代理,以防止我们的爬虫被拒绝,下面我们就来演示scrapy如何设置随机IPProxy。 设置随机IPProxy 同样的你想要设置IPProxy ,首先需要找到可用的IPProxy ,通常情况下,一些代理网
阅读全文
posted @ 2017-08-20 21:29 cnkai
阅读(16008)
评论(0)
推荐(2)
Scrapy学习篇(十一)之设置随机User-Agent
摘要: 大多数情况下,网站都会根据我们的请求头信息来区分你是不是一个爬虫程序,如果一旦识别出这是一个爬虫程序,很容易就会拒绝我们的请求,因此我们需要给我们的爬虫手动添加请求头信息,来模拟浏览器的行为,但是当我们需要大量的爬取某一个网站的时候,一直使用同一个User Agent显然也是不够的,因此,我们本节的
阅读全文
posted @ 2017-08-20 20:49 cnkai
阅读(20806)
评论(2)
推荐(3)
Scrapy学习篇(十)之下载器中间件(Downloader Middleware)
摘要: 下载器中间件是介于Scrapy的request/response处理的钩子框架,是用于全局修改Scrapy request和response的一个轻量、底层的系统。 激活Downloader Middleware 要激活下载器中间件组件,将其加入到 DOWNLOADER_MIDDLEWARES 设置
阅读全文
posted @ 2017-08-20 19:39 cnkai
阅读(3624)
评论(0)
推荐(0)
Scrapy学习篇(九)之文件与图片下载
摘要: Media Pipeline Scrapy为下载item中包含的文件(比如在爬取到产品时,同时也想保存对应的图片)提供了一个可重用的 item pipelines . 这些pipeline有些共同的方法和结构(称之为media pipeline)。我们可以使用FilesPipeline和Images
阅读全文
posted @ 2017-08-20 16:37 cnkai
阅读(4641)
评论(1)
推荐(3)
Scrapy学习篇(八)之settings
摘要: Scrapy设定(settings)提供了定制Scrapy组件的方法。你可以控制包括核心(core),插件(extension),pipeline及spider组件。设定为代码提供了提取以key value映射的配置值的的全局命名空间(namespace)。 Scrapy内置设置 下面给出scrap
阅读全文
posted @ 2017-08-20 12:30 cnkai
阅读(6419)
评论(0)
推荐(1)
Scrapy学习篇(七)之Item Pipeline
摘要: 在之前的 "Scrapy学习篇(四)之数据的存储" 的章节中,我们其实已经使用了Item Pipeline,那一章节主要的目的是形成一个笼统的认识,知道scrapy能干些什么,但是,为了形成一个更加全面的体系,我们在这一章节中,将会单独介绍Item Pipeline,方便以后你自定义你的item p
阅读全文
posted @ 2017-08-20 10:44 cnkai
阅读(2266)
评论(0)
推荐(0)
上一页
1
···
5
6
7
8
9
10
下一页
公告