摘要: 一 介绍 原来scrapy的Scheduler维护的是本机的任务队列(存放Request对象及其回调函数等信息)+本机的去重队列(存放访问过的url地址) 所以实现分布式爬取的关键就是,找一台专门的主机上运行一个共享的队列比如Redis, 然后重写Scrapy的Scheduler,让新的Schedu 阅读全文
posted @ 2019-03-27 14:58 卓尔不凡Tony 阅读(133) 评论(0) 推荐(0)
摘要: 一 背景知识 爬虫的本质就是一个socket客户端与服务端的通信过程,如果我们有多个url待爬取,只用一个线程且采用串行的方式执行,那只能等待爬取一个结束后才能继续下一个,效率会非常低。 需要强调的是:对于单线程下串行N个任务,并不完全等同于低效,如果这N个任务都是纯计算的任务,那么该线程对cpu的 阅读全文
posted @ 2019-03-27 14:57 卓尔不凡Tony 阅读(164) 评论(0) 推荐(0)
摘要: 一 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 Amazon As 阅读全文
posted @ 2019-03-27 14:54 卓尔不凡Tony 阅读(124) 评论(0) 推荐(0)
摘要: 目前主流的第三方IO测试工具有fio、iometer和Orion,这三种工具各有千秋。 fio在Linux系统下使用比较方便,iometer在window系统下使用比较方便,Orion是oracle的IO测试软件,可在没有安装oracle数据库的情况下模拟oracle数据库场景的读写。 如下是在Li 阅读全文
posted @ 2019-03-26 14:30 卓尔不凡Tony 阅读(671) 评论(0) 推荐(0)
摘要: 一 什么是keystone keystone是OpenStack的身份服务,暂且可以理解为一个'与权限有关'的组件。 二 为何要有keystone Keystone项目的主要目的是为访问openstack的各个组件(nova,cinder,glance...)提供一个统一的验证方式,具体的: ope 阅读全文
posted @ 2019-03-13 16:38 卓尔不凡Tony 阅读(270) 评论(0) 推荐(0)
摘要: 一 为何选择云计算/云计算之前遇到的问题 一、有效解决硬件单点故障问题 单点故障是指某个硬件的故障造成网站某个服务的中断。要真正解决这个问题,需要为每个硬件准备冗余,这不仅大大增加了硬件购置成本,而且部署与维护成本也不容小视。 而云计算平台是基于服务器集群,从设计之初就考虑了单点故障问题,并在建设时 阅读全文
posted @ 2019-03-13 16:36 卓尔不凡Tony 阅读(242) 评论(0) 推荐(0)
摘要: 一 什么是正则 正则就是用一些具有特殊含义的符号组合到一起(称为正则表达式)来描述字符或者字符串的方法。或者说:正则就是用来描述一类事物的规则。 生活中处处都是正则: 比如我们描述:4条腿 你可能会想到的是四条腿的动物或者桌子,椅子等 继续描述:4条腿,活的 就只剩下四条腿的动物这一类了 在linu 阅读全文
posted @ 2019-03-13 16:31 卓尔不凡Tony 阅读(460) 评论(0) 推荐(0)
摘要: eval函数 一、函数的作用 将字符串str当成有效的表达式来求值并返回计算结果。它要执行的python代码只能是单个运算表达式(不支持任意形式的赋值操作),而不能是复杂的代码逻辑。 二、函数的定义 eval(expression, globals=None, locals=None) 参数说明: 阅读全文
posted @ 2019-03-13 16:10 卓尔不凡Tony 阅读(279) 评论(0) 推荐(0)
摘要: Built-in Functions¶ The Python interpreter has a number of functions and types built into it that are always available. They are listed here in alphab 阅读全文
posted @ 2019-03-12 18:33 卓尔不凡Tony 阅读(472) 评论(3) 推荐(0)
摘要: lambda是Python编程语言中使用频率较高的一个关键字。那么,什么是lambda?它有哪些用法? 这里,我们通过阅读各方资料,总结了关于Python中的lambda的“一个语法,三个特性,四个用法,一个争论”。 一个语法 在Python中,lambda的语法是唯一的。其形式如下: lambda 阅读全文
posted @ 2019-03-12 18:29 卓尔不凡Tony 阅读(344) 评论(0) 推荐(0)