摘要: scrapy-redis简介 scrapy-redis是scrapy框架基于redis数据库的组件,用于scrapy项目的分布式开发和部署。 有如下特征: 分布式爬取 可以启动多个spider工程,相互之间共享单个redis队列 分布式数据处理 爬取到的scrapy的item数据可以推入到redis 阅读全文
posted @ 2019-05-30 22:04 Vinay 阅读(1144) 评论(0) 推荐(0)
摘要: 一、任务的记录与提取 1.1 制作每日任务 为了便于爬取,推荐使用网页版的在线记事本,现在这种工具很多,我选择“石墨文档”进行操作演示。记录内容的 格式可以根据自己的需求和爬虫自行确定,例如我在11月20日之前记录了一份以下样式的任务清单: 01月08日 6:30 起床 01月08日 8:00 上班 阅读全文
posted @ 2019-05-30 20:23 Vinay 阅读(1534) 评论(0) 推荐(0)
摘要: 一、CSS介绍 CSS(Cascading Style Sheet,层叠样式表)定义如何显示HTML元素。 当浏览器读到一个样式表,它就会按照这个样式表来对文档进行格式化(渲染)。 二、CSS语法 1、CSS实例 每个CSS样式由两个组成部分:选择器和声明。声明又包括属性和属性值。每个声明之后用分号 阅读全文
posted @ 2019-05-29 22:50 Vinay 阅读(185) 评论(0) 推荐(0)
摘要: 函数 简介 函数是一些列代码的集合,用来完成某项特定的功能 优点 1、避免代码冗余 2、让程序代码结构更加清晰 3、代码具有复用性,便于维护 函数的四部分 1、函数名:使用该函数的依据 2、函数体:完成功能的代码块 3、参数:完成功能所需要的条件 4、返回值:完功能完成的反馈结果 函数的定义与调用的 阅读全文
posted @ 2019-04-07 19:43 Vinay 阅读(177) 评论(0) 推荐(0)
摘要: 网址http://blog.csdn.net/u011541946/article/category/6788788/1 阅读全文
posted @ 2019-01-08 09:40 Vinay 阅读(96) 评论(0) 推荐(0)
摘要: 一、logging模块 (一)、日志相关概念 日志是一种可以追踪某些软件运行时所发生事件的方法。软件开发人员可以向他们的代码中调用日志记录相关的方法来表明发生了某些事情。一个事件可以用一个可包含可选变量数据的消息来描述。此外,事件也有重要性的概念,这个重要性也可以被称为严重性级别(level)。 1 阅读全文
posted @ 2019-01-05 13:00 Vinay 阅读(158) 评论(0) 推荐(0)
摘要: APScheduler简介 在平常的工作中几乎有一半的功能模块都需要定时任务来推动,例如项目中有一个定时统计程序,定时爬出网站的URL程序,定时检测钓鱼网站的程序等等,都涉及到了关于定时任务的问题,第一时间想到的是利用time模块的time.sleep()方法使程序休眠来达到定时任务的目的,虽然这样 阅读全文
posted @ 2019-01-05 12:29 Vinay 阅读(567) 评论(0) 推荐(1)
摘要: 转载自:https://www.cnblogs.com/php-linux/p/8365941.html 1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=F 阅读全文
posted @ 2018-12-03 12:29 Vinay 阅读(604) 评论(0) 推荐(0)
摘要: 1. Beautiful Soup的简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下: Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的 阅读全文
posted @ 2018-12-03 12:14 Vinay 阅读(325) 评论(0) 推荐(0)
摘要: Requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。Requests 的哲学是以 PEP 20 的习语为中心开发的,所以它比 urllib 阅读全文
posted @ 2018-12-03 12:05 Vinay 阅读(2513) 评论(0) 推荐(0)