上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 16 下一页
摘要: 当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理 每个item pipeline组件是实现了简单的方法的python类,负责接收到item并通过它执行一些行为,同时也决定此Item是否继续通过pipeline,或者被丢弃而不再进行处理 item pipelin 阅读全文
posted @ 2017-07-17 16:39 fan-tastic 阅读(17918) 评论(1) 推荐(1)
摘要: Spider类定义了如何爬去某个网站,包括爬取的动作以及如何从网页内容中提取结构化的数据,总的来说spider就是定义爬取的动作以及分析某个网页 工作流程分析 我们以通过简单的分析源码来理解我通常在写spiders下写爬虫的时候,我们并没有写start_requests来处理start_urls中的 阅读全文
posted @ 2017-07-17 00:04 fan-tastic 阅读(8745) 评论(0) 推荐(4)
摘要: Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言,也可以用在HTML上。CSS是一门将HTML文档样式化语言,选择器由它定义,并与特定的HTML元素的样式相关联。 X 阅读全文
posted @ 2017-07-16 10:31 fan-tastic 阅读(12702) 评论(3) 推荐(5)
摘要: 这篇文章主要是对的scrapy命令行使用的一个介绍 创建爬虫项目 scrapy startproject 项目名例子如下: 这个时候爬虫的目录结构就已经创建完成了,目录结构如下: 接着我们按照提示可以生成一个spider,这里以百度作为例子,生成spider的命令格式为;scrapy genspid 阅读全文
posted @ 2017-07-15 16:13 fan-tastic 阅读(9784) 评论(2) 推荐(1)
摘要: 这一篇文章主要是为了对scrapy框架的工作流程以及各个组件功能的介绍 Scrapy目前已经可以很好的在python3上运行Scrapy使用了Twisted作为框架,Twisted有些特殊的地方是它是事件驱动的,并且比较适合异步的代码。对于会阻塞线程的操作包含访问文件、数据库或者Web、产生新的进程 阅读全文
posted @ 2017-07-15 09:48 fan-tastic 阅读(9361) 评论(0) 推荐(3)
摘要: 这里是通过爬取伯乐在线的全部文章为例子,让自己先对scrapy进行一个整理的理解 该例子中的详细代码会放到我的github地址:https://github.com/pythonsite/spider/tree/master/jobboleSpider 注:这个文章并不会对详细的用法进行讲解,是为了 阅读全文
posted @ 2017-07-14 23:10 fan-tastic 阅读(42583) 评论(1) 推荐(4)
摘要: 这里我们通过请求网页例子来一步步理解爬虫性能 当我们有一个列表存放了一些url需要我们获取相关数据,我们首先想到的是循环 简单的循环串行 这一种方法相对来说是最慢的,因为一个一个循环,耗时是最长的,是所有的时间总和代码如下: 通过线程池 通过线程池的方式访问,这样整体的耗时是所有连接里耗时最久的那个 阅读全文
posted @ 2017-07-14 16:25 fan-tastic 阅读(6691) 评论(7) 推荐(3)
摘要: 网站的树结构 深度优先算法和实现 广度优先算法和实现 网站的树结构 通过伯乐在线网站为例子: 并且我们通过访问伯乐在线也是可以发现,我们从任何一个子页面其实都是可以返回到首页,所以当我们爬取页面的数据的时候就会涉及到去重的问题,我们需要将爬过的url记录下来,我们将上图进行更改 在爬虫系统中,待抓取 阅读全文
posted @ 2017-06-29 01:33 fan-tastic 阅读(15182) 评论(0) 推荐(3)
摘要: 首谈方法 最近在整理爬虫系列的博客,但是当整理几篇之后,发现一个问题,不管学习任何内容,其实方法是最重要的,按照我之前写的博客内容,其实学起来还是很点枯燥不能解决传统学习过程中的几个问题: 这个是普通学习中我们都经常会碰到的问题,按照之前我整理的文章,包括我自己学习的过程,其实这是一个非常大的痛点, 阅读全文
posted @ 2017-06-27 11:27 fan-tastic 阅读(9051) 评论(6) 推荐(9)
摘要: 一、strings和strconv的使用 strings strings.HasPrefix(s string,preffix string) bool:判断字符串s是否以prefix开头 stirngs.HasSuffix(s string,suffix string) bool:判断字符串s是否 阅读全文
posted @ 2017-06-24 01:02 fan-tastic 阅读(1764) 评论(0) 推荐(0)
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 16 下一页