欢迎来到Felix的博客

Do the right things! And talk is cheap,show me your code!

随笔分类 -  爬虫

摘要:一:爬虫系列部分 爬虫(一):基本原理 爬虫(二):Urllib库详解 爬虫(三):Requests库的基本使用 爬虫(四):BeautifulSoup库的使用 爬虫(五):PyQuery的使用 爬虫(六):Selenium库使用 爬虫(七):爬取猫眼电影top100 爬虫(八):分析Ajax请求抓 阅读全文
posted @ 2019-01-11 14:58 寂静的天空 阅读(736) 评论(0) 推荐(1)
摘要:爬虫及爬行方式 爬虫有很多名字,比如web机器人、spider等,它是一种可以在无需人类干预的情况下自动进行一系列web事务处理的软件程序。web爬虫是一种机器人,它们会递归地对各种信息性的web站点进行遍历,获取第一个web页面,然后获取那个页面指向的所有的web页面,依次类推。因特网搜索引擎使用 阅读全文
posted @ 2018-05-02 20:23 寂静的天空 阅读(796) 评论(0) 推荐(0)
摘要:通过itchat模块和微信进行聊天。 》itchat教程--》大神详解itchat 附上效果图哦! 阅读全文
posted @ 2018-04-15 13:03 寂静的天空 阅读(1359) 评论(0) 推荐(0)
摘要:网站的树结构 通过伯乐在线网站为例子: 并且我们通过访问伯乐在线也是可以发现,我们从任何一个子页面其实都是可以返回到首页,所以当我们爬取页面的数据的时候就会涉及到去重的问题,我们需要将爬过的url记录下来,我们将上图进行更改 在爬虫系统中,待抓取URL队列是很重要的一部分,待抓取URL队列中的URL 阅读全文
posted @ 2018-04-13 22:26 寂静的天空 阅读(5205) 评论(0) 推荐(0)
摘要:1、将访问过的url保存到数据库中。(效率非常低) 2、将访问过的url保存到set中,只需要o(1)的代价就可以查询url。(内存占用大)(1亿条url占用6个G) 3、url经过md5等方法哈希后保存到set中(md5压缩url,降低内存) (scrapy使用的去重类似这种,1亿条url占用1个 阅读全文
posted @ 2018-04-13 21:15 寂静的天空 阅读(334) 评论(0) 推荐(0)
摘要:两种爬虫模式比较: 1、requests和beautifulsoup都是库,scrapy是框架。 2、scrapy框架中可以加入requests和beautifulsoup。 3、scrapy基于twisted,性能是最大的优势。 4、scrapy方便扩展,提供了很多内置的功能。 5、scrapy内 阅读全文
posted @ 2018-04-13 20:55 寂静的天空 阅读(2316) 评论(0) 推荐(0)
摘要:scrapy部署神器-scrapyd --》GitHub地址 --》官方文档 一:安装scrapyd 安装:pip3 install scrapyd 这里我在另外一台ubuntu linux虚拟机中同样安装scrapy以及scrapyd等包,保证所要运行的爬虫需要的包都完成安装. 在这里有个小问题需 阅读全文
posted @ 2018-04-12 18:27 寂静的天空 阅读(481) 评论(0) 推荐(0)
摘要:一:scrapy工作流程 scrapy单机架构: 单主机爬虫架构: 分布式爬虫架构: 这里重要的就是我的队列通过什么维护?这里一般我们通过Redis为维护,Redis,非关系型数据库,Key-Value形式存储,结构灵活。并且redis是内存中的数据结构存储系统,处理速度快,提供队列集合等多种存储结 阅读全文
posted @ 2018-04-12 16:58 寂静的天空 阅读(421) 评论(0) 推荐(0)
摘要:一:爬取思路 首先我们应该找到一个账号,这个账号被关注的人和关注的人都相对比较多的,就是下图中金字塔顶端的人,然后通过爬取这个账号的信息后,再爬取他关注的人和被关注的人的账号信息,然后爬取被关注人的账号信息和被关注信息的关注列表,爬取这些用户的信息,通过这种递归的方式从而爬取整个知乎的所有的账户信息 阅读全文
posted @ 2018-04-12 13:25 寂静的天空 阅读(1194) 评论(1) 推荐(0)
摘要:Scrapy设定(settings)提供了定制Scrapy组件的方法。你可以控制包括核心(core),插件(extension),pipeline及spider组件。设定为代码提供了提取以key-value映射的配置值的的全局命名空间(namespace)。 Scrapy内置设置 下面给出scrap 阅读全文
posted @ 2018-04-11 20:47 寂静的天空 阅读(4496) 评论(0) 推荐(2)
摘要:下载器中间件是介于Scrapy的request/response处理的钩子框架,是用于全局修改Scrapy request和response的一个轻量、底层的系统。 激活Downloader Middleware 要激活下载器中间件组件,将其加入到 DOWNLOADER_MIDDLEWARES 设置 阅读全文
posted @ 2018-04-11 20:46 寂静的天空 阅读(1585) 评论(0) 推荐(0)
摘要:当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理 每个item pipeline组件是实现了简单的方法的python类,负责接收到item并通过它执行一些行为,同时也决定此Item是否继续通过pipeline,或者被丢弃而不再进行处理 item pipelin 阅读全文
posted @ 2018-04-11 16:47 寂静的天空 阅读(4254) 评论(0) 推荐(1)
摘要:Spider类定义了如何爬去某个网站,包括爬取的动作以及如何从网页内容中提取结构化的数据,总的来说spider就是定义爬取的动作以及分析某个网页 工作流程分析 我们以通过简单的分析源码来理解我通常在写spiders下写爬虫的时候,我们并没有写start_requests来处理start_urls中的 阅读全文
posted @ 2018-04-11 16:28 寂静的天空 阅读(401) 评论(0) 推荐(0)
摘要:Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言,也可以用在HTML上。CSS是一门将HTML文档样式化语言,选择器由它定义,并与特定的HTML元素的样式相关联。 X 阅读全文
posted @ 2018-04-11 15:50 寂静的天空 阅读(280) 评论(0) 推荐(0)
摘要:建爬虫项目 scrapy startproject 项目名例子如下: 这个时候爬虫的目录结构就已经创建完成了,目录结构如下: 接着我们按照提示可以生成一个spider,这里以百度作为例子,生成spider的命令格式为;scrapy genspider 爬虫名字 爬虫的网址 关于命令详细使用 命令的使 阅读全文
posted @ 2018-04-11 12:14 寂静的天空 阅读(727) 评论(0) 推荐(0)
摘要:scrapy文档 一:安装scrapy a. pip3 install wheel b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted c. 进入下载目录,执行 pip3 install Twisted‑17.1.0‑cp3 阅读全文
posted @ 2018-04-11 11:33 寂静的天空 阅读(275) 评论(0) 推荐(0)
摘要:(1):分析网页 分析ajax的请求网址,和需要的参数。通过不断向下拉动滚动条,发现请求的参数中offset一直在变化,所以每次请求通过offset来控制新的ajax请求。 (2)上代码 a、通过ajax请求获取页面数据 b、分析ajax请求的返回结果,获取图片集的url c、得到图集url后获取图 阅读全文
posted @ 2018-04-06 22:39 寂静的天空 阅读(2564) 评论(2) 推荐(0)
摘要:一:分析网站 目标站和目标数据目标地址:http://maoyan.com/board/4?offset=20目标数据:目标地址页面的电影列表,包括电影名,电影图片,主演,上映日期以及评分。 二:上代码 (1):导入相应的包 (2):分析网页 通过检查发现需要的内容位于网页中的<dd>标签内。通过翻 阅读全文
posted @ 2018-04-06 21:01 寂静的天空 阅读(706) 评论(0) 推荐(0)
摘要:一:Selenium简介 selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid)。Selenium的核心Selenium Core基于JsUnit, 阅读全文
posted @ 2018-04-06 19:20 寂静的天空 阅读(913) 评论(0) 推荐(0)
摘要:一:简介 PyQuery库是jQuery的Python实现,可以用于解析HTML网页内容,是一个非常强大又灵活的网页解析库。 --》官方文档地址 --》jQuery参考文档 二:初始化 初始化的时候一般有三种传入方式:传入字符串,传入url,传入文件。 (1):字符串初始化 注意: 由于PyQuer 阅读全文
posted @ 2018-04-06 15:56 寂静的天空 阅读(989) 评论(0) 推荐(0)

个人感悟: 一个人最好的镜子就是自己,你眼中的你和别人眼中的你,不是一回事。有人夸你,别信;有人骂你,别听。一根稻草,扔街上就是垃圾;捆上白菜就是白菜价;捆上大闸蟹就是大闸蟹的价。 一个人,不狂是没有出息的,但一直狂,肯定是没有出息的。雨打残花风卷流云,剑影刀光闪过后,你满脸冷酷的站在珠峰顶端,傲视苍生无比英武,此时我问你:你怎么下去? 改变自己就是改变自己的心态,该沉的时候沉下去,该浮的时候浮上来;不争名夺利,不投机取巧,不尔虞我诈;少说、多听、多行动。人每所谓穷通寿夭为命所系,岂不知造物之报施,全视人之自取。 座佑铭:每一个不曾起舞的日子,都是对生命的辜负。