摘要: 爬取的思路 首先我们应该找到一个账号,这个账号被关注的人和关注的人都相对比较多的,就是下图中金字塔顶端的人,然后通过爬取这个账号的信息后,再爬取他关注的人和被关注的人的账号信息,然后爬取被关注人的账号信息和被关注信息的关注列表,爬取这些用户的信息,通过这种递归的方式从而爬取整个知乎的所有的账户信息。阅读全文
posted @ 2017-07-21 02:42 python修行路 阅读(617) 评论(4) 编辑
摘要: 关于cookie和session估计很多程序员面试的时候都会被问到,这两个概念在写web以及爬虫中都会涉及,并且两者可能很多人直接回答也不好说的特别清楚,所以整理这样一篇文章,也帮助自己加深理解 什么是Cookie 其实简单的说就是当用户通过http协议访问一个服务器的时候,这个服务器会将一些Nam阅读全文
posted @ 2017-07-20 15:00 python修行路 阅读(502) 评论(2) 编辑
摘要: 这篇文章中写了常用的下载中间件的用法和例子。Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给spiders的时候,所以从这里我们可以知道下载中间件是介于Scrapy的request/response处理的钩子,用于修改阅读全文
posted @ 2017-07-18 01:07 python修行路 阅读(442) 评论(4) 编辑
摘要: 当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理 每个item pipeline组件是实现了简单的方法的python类,负责接收到item并通过它执行一些行为,同时也决定此Item是否继续通过pipeline,或者被丢弃而不再进行处理 item pipelin阅读全文
posted @ 2017-07-17 16:39 python修行路 阅读(268) 评论(0) 编辑
摘要: Spider类定义了如何爬去某个网站,包括爬取的动作以及如何从网页内容中提取结构化的数据,总的来说spider就是定义爬取的动作以及分析某个网页 工作流程分析 我们以通过简单的分析源码来理解我通常在写spiders下写爬虫的时候,我们并没有写start_requests来处理start_urls中的阅读全文
posted @ 2017-07-17 00:04 python修行路 阅读(243) 评论(0) 编辑
摘要: Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言,也可以用在HTML上。CSS是一门将HTML文档样式化语言,选择器由它定义,并与特定的HTML元素的样式相关联。 X阅读全文
posted @ 2017-07-16 10:31 python修行路 阅读(216) 评论(2) 编辑
摘要: 这篇文章主要是对的scrapy命令行使用的一个介绍 创建爬虫项目 scrapy startproject 项目名例子如下: 这个时候爬虫的目录结构就已经创建完成了,目录结构如下: 接着我们按照提示可以生成一个spider,这里以百度作为例子,生成spider的命令格式为;scrapy genspid阅读全文
posted @ 2017-07-15 16:13 python修行路 阅读(176) 评论(0) 编辑
摘要: 这一篇文章主要是为了对scrapy框架的工作流程以及各个组件功能的介绍 Scrapy目前已经可以很好的在python3上运行Scrapy使用了Twisted作为框架,Twisted有些特殊的地方是它是事件驱动的,并且比较适合异步的代码。对于会阻塞线程的操作包含访问文件、数据库或者Web、产生新的进程阅读全文
posted @ 2017-07-15 09:48 python修行路 阅读(255) 评论(0) 编辑
摘要: 这里是通过爬取伯乐在线的全部文章为例子,让自己先对scrapy进行一个整理的理解 该例子中的详细代码会放到我的github地址:https://github.com/pythonsite/spider/tree/master/jobboleSpider 注:这个文章并不会对详细的用法进行讲解,是为了阅读全文
posted @ 2017-07-14 23:10 python修行路 阅读(251) 评论(0) 编辑
摘要: 这里我们通过请求网页例子来一步步理解爬虫性能 当我们有一个列表存放了一些url需要我们获取相关数据,我们首先想到的是循环 简单的循环串行 这一种方法相对来说是最慢的,因为一个一个循环,耗时是最长的,是所有的时间总和代码如下: 通过线程池 通过线程池的方式访问,这样整体的耗时是所有连接里耗时最久的那个阅读全文
posted @ 2017-07-14 16:25 python修行路 阅读(89) 评论(0) 编辑
摘要: 网站的树结构 深度优先算法和实现 广度优先算法和实现 网站的树结构 通过伯乐在线网站为例子: 并且我们通过访问伯乐在线也是可以发现,我们从任何一个子页面其实都是可以返回到首页,所以当我们爬取页面的数据的时候就会涉及到去重的问题,我们需要将爬过的url记录下来,我们将上图进行更改 在爬虫系统中,待抓取阅读全文
posted @ 2017-06-29 01:33 python修行路 阅读(612) 评论(0) 编辑
摘要: 首谈方法 最近在整理爬虫系列的博客,但是当整理几篇之后,发现一个问题,不管学习任何内容,其实方法是最重要的,按照我之前写的博客内容,其实学起来还是很点枯燥不能解决传统学习过程中的几个问题: 这个是普通学习中我们都经常会碰到的问题,按照之前我整理的文章,包括我自己学习的过程,其实这是一个非常大的痛点,阅读全文
posted @ 2017-06-27 11:27 python修行路 阅读(250) 评论(4) 编辑
摘要: 一、strings和strconv的使用 strings strings.HasPrefix(s string,preffix string) bool:判断字符串s是否以prefix开头 stirngs.HasSuffix(s string,suffix string) bool:判断字符串s是否阅读全文
posted @ 2017-06-24 01:02 python修行路 阅读(156) 评论(0) 编辑
摘要: 最近建了一个运维架构知识体系的群,为什么要创办这么一个群,对大家有什么样的好处?我相信刚参加工作的都会碰到这样的问题:新人刚入职领导交代一个不会,但是为了表现自己的能力不差,领导没有看走眼,硬着头皮也要完成下去,会面临如下几个问题: 第一时间在各大QQ群或微信群咨询那么你有没有想过你为什么提的问题没阅读全文
posted @ 2017-06-22 22:56 python修行路 阅读(136) 评论(3) 编辑
摘要: 一、文件名&关键字&标识符 所有go源码都是以.go结尾 标识符以字母或下划线开头,大小写敏感 下划线_是特殊标识符,用户忽略结果 保留关键字 导入包时可以设置别名 下面是保留关键字: 二、GO程序的基本结构 小练习1写一个小程序,对于给定的一个数字n,求出所有两两相加等于n的组合 小练习2写一个小阅读全文
posted @ 2017-06-14 01:00 python修行路 阅读(63) 评论(5) 编辑
摘要: 整理这番外篇的原因是希望能够让爬虫的朋友更加理解这块内容,因为爬虫爬取数据可能很简单,但是如何高效持久的爬,利用进程,线程,以及异步IO,其实很多人和我一样,故整理此系列番外篇 一、进程 程序并不能单独和运行只有将程序装载到内存中,系统为他分配资源才能运行,而这种执行的程序就称之为进程。程序和进程的阅读全文
posted @ 2017-06-12 20:58 python修行路 阅读(414) 评论(0) 编辑
摘要: 一、第一个go程序 对于代码的解释 如果是为了将代码编译成一个可执行程序,那么package必须是main如果是为了将代码编译成库,那么package则没有限制go中所有的代码都应该隶属一个包 fmt 是go的一个系统库 fmt.println()则可以打印输出 如果想要运行程序:go run 程序阅读全文
posted @ 2017-06-08 14:57 python修行路 阅读(782) 评论(0) 编辑
摘要: 通过前面的文章已经学习了基本的爬虫知识,通过这个例子进行一下练习,毕竟前面文章的知识点只是一个 一个单独的散知识点,需要通过实际的例子进行融合 分析网站 其实爬虫最重要的是前面的分析网站,只有对要爬取的数据页面分析清楚,才能更方便后面爬取数据 目标站和目标数据目标地址:http://www.hshf阅读全文
posted @ 2017-06-07 20:51 python修行路 阅读(195) 评论(3) 编辑
摘要: 一、什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid)。Selenium的核心Selenium Core基于JsUnit阅读全文
posted @ 2017-06-06 19:42 python修行路 阅读(427) 评论(0) 编辑
摘要: PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪的方法了。 官网地址:htt阅读全文
posted @ 2017-06-02 22:51 python修行路 阅读(453) 评论(2) 编辑
摘要: 爬取的思路 首先我们应该找到一个账号,这个账号被关注的人和关注的人都相对比较多的,就是下图中金字塔顶端的人,然后通过爬取这个账号的信息后,再爬取他关注的人和被关注的人的账号信息,然后爬取被关注人的账号信息和被关注信息的关注列表,爬取这些用户的信息,通过这种递归的方式从而爬取整个知乎的所有的账户信息。阅读全文
posted @ 2017-07-21 02:42 python修行路 阅读(617) 评论(4) 编辑
摘要: 关于cookie和session估计很多程序员面试的时候都会被问到,这两个概念在写web以及爬虫中都会涉及,并且两者可能很多人直接回答也不好说的特别清楚,所以整理这样一篇文章,也帮助自己加深理解 什么是Cookie 其实简单的说就是当用户通过http协议访问一个服务器的时候,这个服务器会将一些Nam阅读全文
posted @ 2017-07-20 15:00 python修行路 阅读(502) 评论(2) 编辑
摘要: 这篇文章中写了常用的下载中间件的用法和例子。Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给spiders的时候,所以从这里我们可以知道下载中间件是介于Scrapy的request/response处理的钩子,用于修改阅读全文
posted @ 2017-07-18 01:07 python修行路 阅读(442) 评论(4) 编辑
摘要: 当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理 每个item pipeline组件是实现了简单的方法的python类,负责接收到item并通过它执行一些行为,同时也决定此Item是否继续通过pipeline,或者被丢弃而不再进行处理 item pipelin阅读全文
posted @ 2017-07-17 16:39 python修行路 阅读(268) 评论(0) 编辑
摘要: Spider类定义了如何爬去某个网站,包括爬取的动作以及如何从网页内容中提取结构化的数据,总的来说spider就是定义爬取的动作以及分析某个网页 工作流程分析 我们以通过简单的分析源码来理解我通常在写spiders下写爬虫的时候,我们并没有写start_requests来处理start_urls中的阅读全文
posted @ 2017-07-17 00:04 python修行路 阅读(243) 评论(0) 编辑
摘要: Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言,也可以用在HTML上。CSS是一门将HTML文档样式化语言,选择器由它定义,并与特定的HTML元素的样式相关联。 X阅读全文
posted @ 2017-07-16 10:31 python修行路 阅读(216) 评论(2) 编辑
摘要: 这篇文章主要是对的scrapy命令行使用的一个介绍 创建爬虫项目 scrapy startproject 项目名例子如下: 这个时候爬虫的目录结构就已经创建完成了,目录结构如下: 接着我们按照提示可以生成一个spider,这里以百度作为例子,生成spider的命令格式为;scrapy genspid阅读全文
posted @ 2017-07-15 16:13 python修行路 阅读(176) 评论(0) 编辑
摘要: 这一篇文章主要是为了对scrapy框架的工作流程以及各个组件功能的介绍 Scrapy目前已经可以很好的在python3上运行Scrapy使用了Twisted作为框架,Twisted有些特殊的地方是它是事件驱动的,并且比较适合异步的代码。对于会阻塞线程的操作包含访问文件、数据库或者Web、产生新的进程阅读全文
posted @ 2017-07-15 09:48 python修行路 阅读(255) 评论(0) 编辑
摘要: 这里是通过爬取伯乐在线的全部文章为例子,让自己先对scrapy进行一个整理的理解 该例子中的详细代码会放到我的github地址:https://github.com/pythonsite/spider/tree/master/jobboleSpider 注:这个文章并不会对详细的用法进行讲解,是为了阅读全文
posted @ 2017-07-14 23:10 python修行路 阅读(251) 评论(0) 编辑
摘要: 这里我们通过请求网页例子来一步步理解爬虫性能 当我们有一个列表存放了一些url需要我们获取相关数据,我们首先想到的是循环 简单的循环串行 这一种方法相对来说是最慢的,因为一个一个循环,耗时是最长的,是所有的时间总和代码如下: 通过线程池 通过线程池的方式访问,这样整体的耗时是所有连接里耗时最久的那个阅读全文
posted @ 2017-07-14 16:25 python修行路 阅读(89) 评论(0) 编辑