python爬虫-Scrapy - 随笔分类 - liangxb

Scrapy实战篇（九）之爬取链家网天津租房数据

摘要：以后有可能会在天津租房子，所以想将链家网上面天津的租房数据抓下来，以供分析使用。思路： 1、以初始链接https://tj.lianjia.com/zufang/rt200600000001/?showMore=1(因为我只关心整租的房间)开始，首先获取每个行政区对应的链接。 2、在以每个区的链接阅读全文

posted @ 2019-03-02 19:14 liangxb 阅读(722) 评论(0) 推荐(0)

Scrapy实战篇（八）之爬取教育部高校名单抓取和分析

摘要：本节我们以网址https://daxue.eol.cn/mingdan.shtml为初始链接，爬取教育部公布的正规高校名单。思路： 1、首先以上面的地址开始链接，抓取到下面省份对应的链接。 2、在解析具体的省份源代码，获取数据。虽然山东和河南的网页结构和其他不同，我们也不做特殊处理，直接不做抓取即阅读全文

posted @ 2019-03-01 18:27 liangxb 阅读(1591) 评论(1) 推荐(0)

Scrapy实战篇（七）之爬取爱基金网站基金业绩数据

摘要：本篇我们以scrapy+selelum的方式来爬取爱基金网站(http://fund.10jqka.com.cn/datacenter/jz/)的基金业绩数据. 思路：我们以http://fund.10jqka.com.cn/datacenter/jz/网站作为起始，首先抓取页面中基金的详细页面地址阅读全文

posted @ 2019-02-16 23:45 liangxb 阅读(1151) 评论(0) 推荐(0)

scrapy实战之scrapyrt的使用

摘要：scrapyrt为scrapy提供了一个http接口，有了它，我们不用再执行命令，而是直接请求一个http接口来启动项目，如果项目是部署在远程的，会比较方便。 1、安装： pip install scrapyrt 2、在任意一个项目中运行scrapyrt，再此我们在quotes爬虫项目中运行。默认会阅读全文

posted @ 2019-02-13 22:42 liangxb 阅读(2188) 评论(0) 推荐(0)

Scrapy实战篇（六）之爬取360图片数据和图片

摘要：本篇文章我们以360图片为例，介绍scrapy框架的使用以及图片数据的下载。目标网站：http://images.so.com/z?ch=photography 思路：分析目标网站为ajax加载方式，通过构造目标url从而请求数据，将图片数据存储在本地，将图片的属性存储在mongodb中。 1、首阅读全文

posted @ 2019-02-13 22:04 liangxb 阅读(1813) 评论(0) 推荐(0)

Scrapy实战篇（五）之爬取历史天气数据

摘要：本篇文章我们以抓取历史天气数据为例，简单说明数据抓取的两种方式： 1、一般简单或者较小量的数据需求，我们以requests(selenum)+beautiful的方式抓取数据 2、当我们需要的数据量较多时，建议采用scrapy框架进行数据采集，scrapy框架采用异步方式发起请求，数据抓取效率极高。阅读全文

posted @ 2019-02-12 21:34 liangxb 阅读(2174) 评论(0) 推荐(0)

Scrapy实战篇（四）爬取京东商城文胸信息

摘要：创建scrapy项目填充 item.py文件在这里定义想要存储的字段信息填充middlewares.py文件中间件主要实现添加随机user-agent的作用。填充pipelines.py文件将我们爬取到的结果存储在mongo数据库中设置settings.py文件下面的这些信息需要简单阅读全文

posted @ 2019-02-11 22:32 liangxb 阅读(630) 评论(0) 推荐(1)

Scrapy实战篇（三）之爬取豆瓣电影短评

摘要：今天的主要内容是爬取豆瓣电影短评，看一下网友是怎么评价最近的电影的，方便我们以后的分析，以以下三部电影：二十二，战狼，三生三世十里桃花为例。由于豆瓣短评网页比较简单，且不存在动态加载的内容，我们下面就直接上代码。有一点需要注意的是，豆瓣短评的前几页不需要登录就可以看，但是后面的内容是是需要我们登录阅读全文

posted @ 2019-02-11 22:31 liangxb 阅读(757) 评论(0) 推荐(0)

Scrapy实战篇（二）之爬取链家网成交房源数据（下）

摘要：在上一小节中，我们已经提取到了房源的具体信息，这一节中，我们主要是对提取到的数据进行后续的处理，以及进行相关的设置。数据处理我们这里以把数据存储到mongo数据库为例。编写pipelines.py文件非常简单的几步，就实现了将数据保存到mongo数据库中，所以说mongo数据库还是非常好用的。阅读全文

posted @ 2019-02-11 22:30 liangxb 阅读(1023) 评论(1) 推荐(0)

Scrapy实战篇（一）之爬取链家网成交房源数据（上）

摘要：今天，我们就以链家网南京地区为例，来学习爬取链家网的成交房源数据。这里推荐使用火狐浏览器，并且安装firebug和firepath两款插件，你会发现，这两款插件会给我们后续的数据提取带来很大的方便。首先创建一个名称为lianjia的项目。需求分析爬取数据的第一步当然是确定我们的需求，大方向就阅读全文

posted @ 2019-02-11 22:29 liangxb 阅读(1777) 评论(0) 推荐(0)

Scrapy学习篇（十三）之scrapy+selenum获取网站cookie并保存带本地

摘要：参考：https://www.cnblogs.com/small-bud/p/9064674.html 和selenium登录51job的例子阅读全文

posted @ 2019-02-11 22:27 liangxb 阅读(697) 评论(0) 推荐(0)

Scrapy学习篇（十二）之设置随机IP代理（IPProxy）

摘要：当我们需要大量的爬取网站信息时，除了切换User-Agent之外，另外一个重要的方式就是设置IP代理，以防止我们的爬虫被拒绝，下面我们就来演示scrapy如何设置随机IPProxy。设置随机IPProxy 同样的你想要设置IPProxy ，首先需要找到可用的IPProxy ，通常情况下，一些代理网阅读全文

posted @ 2019-02-11 22:22 liangxb 阅读(8661) 评论(0) 推荐(1)

Scrapy学习篇（十一）之设置随机User-Agent

摘要：大多数情况下，网站都会根据我们的请求头信息来区分你是不是一个爬虫程序，如果一旦识别出这是一个爬虫程序，很容易就会拒绝我们的请求，因此我们需要给我们的爬虫手动添加请求头信息，来模拟浏览器的行为，但是当我们需要大量的爬取某一个网站的时候，一直使用同一个User-Agent显然也是不够的，因此，我们本节的阅读全文

posted @ 2019-02-11 22:21 liangxb 阅读(1856) 评论(0) 推荐(0)

Scrapy学习篇（十）之下载器中间件（Downloader Middleware）

摘要：下载器中间件是介于Scrapy的request/response处理的钩子框架，是用于全局修改Scrapy request和response的一个轻量、底层的系统。激活Downloader Middleware 要激活下载器中间件组件，将其加入到 DOWNLOADER_MIDDLEWARES 设置阅读全文

posted @ 2019-02-11 22:20 liangxb 阅读(1079) 评论(0) 推荐(0)

Scrapy学习篇（九）之文件与图片下载

摘要：Media Pipeline Scrapy为下载item中包含的文件(比如在爬取到产品时，同时也想保存对应的图片)提供了一个可重用的 item pipelines . 这些pipeline有些共同的方法和结构(称之为media pipeline)。我们可以使用FilesPipeline和Images 阅读全文

posted @ 2019-02-11 22:20 liangxb 阅读(878) 评论(0) 推荐(0)

Scrapy学习篇（八）之settings

摘要：Scrapy设定(settings)提供了定制Scrapy组件的方法。你可以控制包括核心(core)，插件(extension)，pipeline及spider组件。设定为代码提供了提取以key-value映射的配置值的的全局命名空间(namespace)。 Scrapy内置设置下面给出scrap 阅读全文

posted @ 2019-02-11 22:08 liangxb 阅读(421) 评论(0) 推荐(0)

Scrapy学习篇（七）之Item Pipeline

摘要：在之前的Scrapy学习篇（四）之数据的存储的章节中，我们其实已经使用了Item Pipeline，那一章节主要的目的是形成一个笼统的认识，知道scrapy能干些什么，但是，为了形成一个更加全面的体系，我们在这一章节中，将会单独介绍Item Pipeline，方便以后你自定义你的item pipel 阅读全文

posted @ 2019-02-02 14:34 liangxb 阅读(591) 评论(0) 推荐(0)

Scrapy学习篇（六）之Selector选择器

摘要：当我们取得了网页的response之后，最关键的就是如何从繁杂的网页中把我们需要的数据提取出来，python从网页中提取数据的包很多，常用的有下面的几个： BeautifulSoup它基于HTML代码的结构来构造一个Python对象，对不良标记的处理也非常合理，但是速度上有所欠缺。 lxml是一个阅读全文

posted @ 2019-02-02 14:23 liangxb 阅读(541) 评论(0) 推荐(0)

Scrapy学习篇（五）之Spiders

摘要：Spiders Spider类定义了如何爬取某个网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。简而言之，Spider就是你定义爬取的动作及分析某个网页(或者是有些网页)的地方。对spider来说，爬取的循环类似如下: 以初始的URL(start_ 阅读全文

posted @ 2019-02-01 14:52 liangxb 阅读(396) 评论(0) 推荐(0)

Scrapy学习篇（四）之数据存储

摘要：上一篇中，我们简单的实现了toscrapy网页信息的爬取，并存储到mongo，本篇文章信息看看数据的存储。这一篇主要是实现信息的存储，我们以将信息保存到文件和mongo数据库为例，学习数据的存储，依然是上一节的例子。编写爬虫修改items.py文件来定义我们的item Item 是保存爬取到的数阅读全文

posted @ 2019-02-01 14:44 liangxb 阅读(1995) 评论(0) 推荐(0)

随笔分类 - python爬虫-Scrapy