爬虫 - 随笔分类 - 寂静的天空

爬虫系列目录

摘要：一：爬虫系列部分爬虫（一）：基本原理爬虫（二）：Urllib库详解爬虫（三）：Requests库的基本使用爬虫（四）：BeautifulSoup库的使用爬虫（五）：PyQuery的使用爬虫（六）：Selenium库使用爬虫（七）：爬取猫眼电影top100 爬虫（八）：分析Ajax请求抓阅读全文

posted @ 2019-01-11 14:58 寂静的天空阅读(736) 评论(0) 推荐(1)

爬虫与seo优化

摘要：爬虫及爬行方式爬虫有很多名字，比如web机器人、spider等，它是一种可以在无需人类干预的情况下自动进行一系列web事务处理的软件程序。web爬虫是一种机器人，它们会递归地对各种信息性的web站点进行遍历，获取第一个web页面，然后获取那个页面指向的所有的web页面，依次类推。因特网搜索引擎使用阅读全文

posted @ 2018-05-02 20:23 寂静的天空阅读(796) 评论(0) 推荐(0)

微信自动聊天机器人

摘要：通过itchat模块和微信进行聊天。》itchat教程--》大神详解itchat 附上效果图哦！阅读全文

posted @ 2018-04-15 13:03 寂静的天空阅读(1359) 评论(0) 推荐(0)

深度优先和广度优先

摘要：网站的树结构通过伯乐在线网站为例子：并且我们通过访问伯乐在线也是可以发现，我们从任何一个子页面其实都是可以返回到首页，所以当我们爬取页面的数据的时候就会涉及到去重的问题，我们需要将爬过的url记录下来，我们将上图进行更改在爬虫系统中，待抓取URL队列是很重要的一部分，待抓取URL队列中的URL 阅读全文

posted @ 2018-04-13 22:26 寂静的天空阅读(5205) 评论(0) 推荐(0)

爬虫去重策略

摘要：1、将访问过的url保存到数据库中。（效率非常低） 2、将访问过的url保存到set中，只需要o(1)的代价就可以查询url。（内存占用大）（1亿条url占用6个G） 3、url经过md5等方法哈希后保存到set中（md5压缩url，降低内存）（scrapy使用的去重类似这种，1亿条url占用1个阅读全文

posted @ 2018-04-13 21:15 寂静的天空阅读(334) 评论(0) 推荐(0)

scrapy vs requests+beautifulsoup

摘要：两种爬虫模式比较： 1、requests和beautifulsoup都是库，scrapy是框架。 2、scrapy框架中可以加入requests和beautifulsoup。 3、scrapy基于twisted，性能是最大的优势。 4、scrapy方便扩展，提供了很多内置的功能。 5、scrapy内阅读全文

posted @ 2018-04-13 20:55 寂静的天空阅读(2316) 评论(0) 推荐(0)

爬虫（十八）：scrapy分布式部署

摘要：scrapy部署神器-scrapyd --》GitHub地址 --》官方文档一：安装scrapyd 安装：pip3 install scrapyd 这里我在另外一台ubuntu linux虚拟机中同样安装scrapy以及scrapyd等包，保证所要运行的爬虫需要的包都完成安装. 在这里有个小问题需阅读全文

posted @ 2018-04-12 18:27 寂静的天空阅读(481) 评论(0) 推荐(0)

爬虫（十七）：scrapy分布式原理

摘要：一：scrapy工作流程 scrapy单机架构：单主机爬虫架构：分布式爬虫架构：这里重要的就是我的队列通过什么维护？这里一般我们通过Redis为维护，Redis，非关系型数据库，Key-Value形式存储，结构灵活。并且redis是内存中的数据结构存储系统，处理速度快，提供队列集合等多种存储结阅读全文

posted @ 2018-04-12 16:58 寂静的天空阅读(421) 评论(0) 推荐(0)

爬虫（十六）：scrapy爬取知乎用户信息

摘要：一：爬取思路首先我们应该找到一个账号，这个账号被关注的人和关注的人都相对比较多的，就是下图中金字塔顶端的人，然后通过爬取这个账号的信息后，再爬取他关注的人和被关注的人的账号信息，然后爬取被关注人的账号信息和被关注信息的关注列表，爬取这些用户的信息，通过这种递归的方式从而爬取整个知乎的所有的账户信息阅读全文

posted @ 2018-04-12 13:25 寂静的天空阅读(1194) 评论(1) 推荐(0)

爬虫（十五）：scrapy中的settings详解

摘要：Scrapy设定(settings)提供了定制Scrapy组件的方法。你可以控制包括核心(core)，插件(extension)，pipeline及spider组件。设定为代码提供了提取以key-value映射的配置值的的全局命名空间(namespace)。 Scrapy内置设置下面给出scrap 阅读全文

posted @ 2018-04-11 20:47 寂静的天空阅读(4496) 评论(0) 推荐(2)

爬虫（十四）：scrapy下载中间件

摘要：下载器中间件是介于Scrapy的request/response处理的钩子框架，是用于全局修改Scrapy request和response的一个轻量、底层的系统。激活Downloader Middleware 要激活下载器中间件组件，将其加入到 DOWNLOADER_MIDDLEWARES 设置阅读全文

posted @ 2018-04-11 20:46 寂静的天空阅读(1585) 评论(0) 推荐(0)

爬虫（十三）：scrapy中pipeline的用法

摘要：当Item 在Spider中被收集之后，就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的python类，负责接收到item并通过它执行一些行为，同时也决定此Item是否继续通过pipeline,或者被丢弃而不再进行处理 item pipelin 阅读全文

posted @ 2018-04-11 16:47 寂静的天空阅读(4254) 评论(0) 推荐(1)

爬虫（十二）：scrapy中spiders的用法

摘要：Spider类定义了如何爬去某个网站，包括爬取的动作以及如何从网页内容中提取结构化的数据，总的来说spider就是定义爬取的动作以及分析某个网页工作流程分析我们以通过简单的分析源码来理解我通常在写spiders下写爬虫的时候，我们并没有写start_requests来处理start_urls中的阅读全文

posted @ 2018-04-11 16:28 寂静的天空阅读(401) 评论(0) 推荐(0)

爬虫（十一）：scrapy中的选择器

摘要：Scrapy提取数据有自己的一套机制，被称作选择器（selectors）,通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言，也可以用在HTML上。CSS是一门将HTML文档样式化语言，选择器由它定义，并与特定的HTML元素的样式相关联。 X 阅读全文

posted @ 2018-04-11 15:50 寂静的天空阅读(280) 评论(0) 推荐(0)

爬虫（十）：scrapy命令行详解

摘要：建爬虫项目 scrapy startproject 项目名例子如下：这个时候爬虫的目录结构就已经创建完成了,目录结构如下：接着我们按照提示可以生成一个spider,这里以百度作为例子,生成spider的命令格式为;scrapy genspider 爬虫名字爬虫的网址关于命令详细使用命令的使阅读全文

posted @ 2018-04-11 12:14 寂静的天空阅读(727) 评论(0) 推荐(0)

爬虫（九）：scrapy框架回顾

摘要：scrapy文档一：安装scrapy a. pip3 install wheel b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted c. 进入下载目录，执行 pip3 install Twisted‑17.1.0‑cp3 阅读全文

posted @ 2018-04-11 11:33 寂静的天空阅读(275) 评论(0) 推荐(0)

爬虫（八）：分析Ajax请求抓取今日头条街拍美图

摘要：（1）：分析网页分析ajax的请求网址，和需要的参数。通过不断向下拉动滚动条，发现请求的参数中offset一直在变化，所以每次请求通过offset来控制新的ajax请求。（2）上代码 a、通过ajax请求获取页面数据 b、分析ajax请求的返回结果，获取图片集的url c、得到图集url后获取图阅读全文

posted @ 2018-04-06 22:39 寂静的天空阅读(2564) 评论(2) 推荐(0)

爬虫（七）：爬取猫眼电影top100

摘要：一：分析网站目标站和目标数据目标地址：http://maoyan.com/board/4?offset=20目标数据：目标地址页面的电影列表，包括电影名，电影图片，主演，上映日期以及评分。二：上代码（1）：导入相应的包（2）：分析网页通过检查发现需要的内容位于网页中的<dd>标签内。通过翻阅读全文

posted @ 2018-04-06 21:01 寂静的天空阅读(706) 评论(0) 推荐(0)

爬虫（六）：Selenium库使用

摘要：一：Selenium简介 selenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE）,编写及运行（Selenium Remote Control）和测试的并行处理（Selenium Grid）。Selenium的核心Selenium Core基于JsUnit，阅读全文

posted @ 2018-04-06 19:20 寂静的天空阅读(913) 评论(0) 推荐(0)

爬虫（五）：PyQuery的使用

摘要：一：简介 PyQuery库是jQuery的Python实现，可以用于解析HTML网页内容，是一个非常强大又灵活的网页解析库。 --》官方文档地址 --》jQuery参考文档二：初始化初始化的时候一般有三种传入方式：传入字符串，传入url,传入文件。（1）：字符串初始化注意：由于PyQuer 阅读全文

posted @ 2018-04-06 15:56 寂静的天空阅读(989) 评论(0) 推荐(0)

Felix Wang

Do the right things! Talk is cheap,Show me the code!

随笔分类 - 爬虫

公告