摘要: 概述 在前面两篇( "爬虫学习之基于Scrapy的网络爬虫" 和 "爬虫学习之简单的网络爬虫" )文章中我们通过两个实际的案例,采用不同的方式进行了内容提取。我们对网络爬虫有了一个比较初级的认识,只要发起请求获取响应的网页内容,然后对内容进行格式化存储。很多时候我们抓取到的内容可能会发生重复,也有可 阅读全文
posted @ 2016-07-25 00:23 Chenkun 阅读(1185) 评论(0) 推荐(2) 编辑
摘要: 在上一篇文章[《爬虫学习之一个简单的网络爬虫》](http://imchenkun.com/archives/5/)中我们对爬虫的概念有了一个初步的认识,并且通过Python的一些第三方库很方便的提取了我们想要的内容,但是通常面对工作当作复杂的需求,如果都按照那样的方式来处理效率非常的低,这通常需要你自己去定义并实现很多非常基础的爬虫框架上的功能,或者需要组合很多Python第三方库来做。不过不用担心,Python中有很多非常优秀的爬虫框架,比如我们接下来要学习到的Scrapy。Scrapy官方有很经典的入门文档说明,这一篇仅仅是通过一个简单的实例来了解Scrapy这个库是如何来进行网络内容提取的,更深入的学习请[阅读Scrapy官方文档](http://doc.scrapy.org/en/1.1/)。 阅读全文
posted @ 2016-07-12 10:04 Chenkun 阅读(4409) 评论(2) 推荐(0) 编辑
摘要: 概述 这是一个网络爬虫学习的技术分享,主要通过一些实际的案例对爬虫的原理进行分析,达到对爬虫有个基本的认识,并且能够根据自己的需要爬到想要的数据。有了数据后可以做数据分析或者通过其他方式重新结构化展示。 什么是网络爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐 阅读全文
posted @ 2016-07-08 15:20 Chenkun 阅读(27171) 评论(3) 推荐(3) 编辑