01 2019 档案
摘要:简介 HTTP是Hyper Text Transfer Protocol(超文本传输协议)的缩写。HTTP协议是用于从WWW服务器传输超文本到本地浏览器的传送协议。它可以使浏览器更加高效,使网络传输减少。它不仅保证计算机正确快速地传输超文本文档,还确定传输文档中的哪一部分,以及哪部分内容首先显示(如
阅读全文
摘要:判断值是否在set集合中的速度明显要比list快的多, 因为查找set用到了hash,时间在O(1)级别。 假设listA有100w个元素,setA=set(listA)即setA为listA转换之后的集合。 以下做个简单的对比: 第一个循环用了16min,第二个循环用了52s。 由此可见,在set
阅读全文
摘要:是用redis做任务队列时,要思考: 用什么数据类型来做任务队列 怎样才能防止重复爬取 上一篇文章已经决定使用list来做任务队列,但是去重问题没有得到解决。这里可以用set来解决思考二的问题,就是防止重复爬取的问题。 以下是具体代码 算是一个生产消费把,master往队列里塞任务,parser使用
阅读全文
摘要:队列本身其实是个有序的列表,而Redis是支持list的,我们可以查看Redis的官方文档 http://redis.io/commands#list ,其中我们可以对这个队列的两端分别进行操作,所以其实Redis中的list即可以当做普通的先进先出的queue,也可以作为先进后出的stack。 如
阅读全文
摘要:一、为何要搭建 Elasticsearch 集群 凡事都要讲究个为什么。在搭建集群之前,我们首先先问一句,为什么我们需要搭建集群?它有什么优势呢? (1)高可用性 Elasticsearch 作为一个搜索引擎,我们对它的基本要求就是存储海量数据并且可以在非常短的时间内查询到我们想要的信息。所以第一步
阅读全文
摘要:前言 之所以在这里写下python爬虫常见面试题及解答,一是用作笔记,方便日后回忆;二是给自己一个和大家交流的机会,互相学习、进步,希望不正之处大家能给予指正;三是我也是互联网寒潮下岗的那批人之一,为了找工作而做准备。 一、题目部分 1、scrapy框架专题部分(很多面试都会涉及到这部分) (1)请
阅读全文
摘要:前言 之所以在这里写下python爬虫常见面试题及解答,一是用作笔记,方便日后回忆;二是给自己一个和大家交流的机会,互相学习、进步,希望不正之处大家能给予指正;三是我也是互联网寒潮下岗的那批人之一,为了找工作而做准备。 一、题目部分 1、python中常用的数据结构有哪些?请简要介绍一下。 2、简要
阅读全文
摘要:一、前言 借用最近抖音上很火的一句话:往事随风,爱恨随意。忘记往事,时间就是最好的解药。关于爱恨,一切随缘。 二、正文 我的2018啊! 2018年的冬季,互联网公司寒意来袭,不少公司通过裁员来度过这个冬季。而我,就是这波裁员潮牺牲的一份子。俗话说:“我不入地狱谁入地狱”。OK,我接受。说实话也是因
阅读全文

浙公网安备 33010602011771号