240      
    Alex   
  
    每个人都有属于自己的一片森林,也许我们从来不曾去过,但它一直在那里,总会在那里。迷失的人迷失了,相逢的人会再相逢!   

随笔分类 -  一只爬虫的自我修养

摘要:简单分布式爬虫 一、简单分布式爬虫结构 主从模式,主从模式是指由一台主机作为控制节点,负责管理所有运行网络爬虫的主机,爬虫只需要从控制节点那里接收任务,并把新生成任务提交给控制节点就可以了, 在这个过程中不必与其他爬虫通信,这种方式实现简单、利于管理。而控制节点则需要与所有爬虫进行通信,因此可有看到 阅读全文
posted @ 2018-08-24 15:51 Alex_c 阅读(279) 评论(0) 推荐(0)
摘要:爬虫框架的基础和运行流程 基本的框架流程 基础爬虫框架主要包括五大模块、分别为爬虫调度器、URL管理器、HTML下载器、HTML解析器、数据存储器。功能分析如下: 爬虫调度器主要负责统筹其他四个模块的协调工作。 URL管理器负责URL链接的管理,维护已经爬取的URL集合和未爬取的URL集合,提供获取 阅读全文
posted @ 2018-08-24 12:04 Alex_c 阅读(1947) 评论(0) 推荐(0)
摘要:爬虫数据存储 1、 HTML正文抽取 1.1、存储为json 首先使用Requests访问http://seputu.com/,获取HTML文档内容,并打印内容,代码如下 1.2、爬虫异常发送邮件 开启网易邮件的第三方设置 获取邮箱授权码 #构造MIMEText对象时需要3个参数:邮件正文,MIME 阅读全文
posted @ 2018-08-23 20:13 Alex_c 阅读(194) 评论(0) 推荐(0)
摘要:Scrapy框架 阅读全文
posted @ 2018-03-20 00:44 Alex_c 阅读(90) 评论(0) 推荐(0)
摘要:爬虫高性能 阅读全文
posted @ 2018-03-20 00:43 Alex_c 阅读(128) 评论(0) 推荐(0)
摘要:请求库之Beautifulsoup模块 阅读全文
posted @ 2018-03-20 00:42 Alex_c 阅读(107) 评论(0) 推荐(0)
摘要:MongDB 阅读全文
posted @ 2018-03-20 00:40 Alex_c 阅读(147) 评论(0) 推荐(0)
摘要:请求库之selenium模块 阅读全文
posted @ 2018-03-20 00:39 Alex_c 阅读(87) 评论(0) 推荐(0)
摘要:Rquest模块 阅读全文
posted @ 2018-03-20 00:08 Alex_c 阅读(126) 评论(0) 推荐(0)
摘要:什么是爬虫 阅读全文
posted @ 2018-03-20 00:05 Alex_c 阅读(159) 评论(0) 推荐(0)
摘要:Python_爬虫目录 爬虫 什么是爬虫 Rquest模块 请求库之selenium模块 MongoDB 请求库之Beautifulsoup模块 爬虫高性能 Scrapy框架 Python_爬虫目录 爬虫 什么是爬虫 Rquest模块 请求库之selenium模块 MongoDB 请求库之Beaut 阅读全文
posted @ 2018-03-20 00:03 Alex_c 阅读(160) 评论(0) 推荐(0)