04 2020 档案
摘要:说明《透视HTTP协议》是 罗剑锋 (奇虎360技术专家)在极客时间开的一门专栏课,笔者记录一下学习笔记,仅供参考。 上一讲中我讲了 TLS1.2 的握手过程,你是不是已经完全掌握了呢? 不过 TLS1.2 已经是 10 年前(2008 年)的“老”协议了,虽然历经考验,但毕竟“岁月不饶人”,在安全
阅读全文
摘要:说明《透视HTTP协议》是 罗剑锋 (奇虎360技术专家)在极客时间开的一门专栏课,笔者记录一下学习笔记,仅供参考。 经过前几讲的介绍,你应该已经熟悉了对称加密与非对称加密、数字签名与证书等密码学知识。 有了这些知识“打底”,现在我们就可以正式开始研究 HTTPS 和 TLS 协议了。 HTTPS
阅读全文
摘要:PyQuery模块也是一个解析html的一个模块,它和Beautiful Soup用起来差不多,它是jquery实现的,和jquery语法差不多,会用jquery的人用起来就比较方便了。 Pyquery需要依赖lxml模块,不装的话,使用会报错。 安装 pip install lxml pip in
阅读全文
摘要:说明《透视HTTP协议》是 罗剑锋 (奇虎360技术专家)在极客时间开的一门专栏课,笔者记录一下学习笔记,仅供参考。 上一讲中我们学习了对称加密和非对称加密,以及两者结合起来的混合加密,实现了机密性。 但仅有机密性,离安全还差的很远。 黑客虽然拿不到会话密钥,无法破解密文,但可以通过窃听收集到足够多
阅读全文
摘要:这篇介绍Beautiful Soup怎么用,这个模块是用来解析html的,它操作很简单,用起来比较方便 这是第三方模块需要安装 pip install beautifulsoup4 pip install lxml Beautiful Soup对象 Beautiful将复杂HTML文档转换成一个复杂
阅读全文
摘要:说明《透视HTTP协议》是 罗剑锋 (奇虎360技术专家)在极客时间开的一门专栏课,笔者记录一下学习笔记,仅供参考。 在上一讲中,我们初步学习了 HTTPS,知道 HTTPS 的安全性是由 TLS 来保证的。 你一定很好奇,它是怎么为 HTTP 增加了机密性、完整性,身份认证和不可否认等特性的呢?
阅读全文
摘要:写了怎么发请求和获取到数据,接下来就是该怎么处理数据了,打开一个网站之后,它会返回很多数据,数据很多,有很多都是咱们不需要的,咱们写爬虫的话只获取到对咱们自己有用的数据,就要从返回的数据里面找到咱们需要的数据,然后保存起来。那怎么筛选到咱们需要的数据呢,就得用正则表达式了,正则表达就是写各种规则来匹
阅读全文
摘要:爬虫的原理就是写代码自动化的获取数据,保存下来数据,那怎么写代码来请求一个网址,获取结果呢?就用到requests模块了。 requests模块是python的一个第三方模块,它是基于python自带的urllib模块封装的,用来发送http请求和获取返回的结果。 requests模块是第三方模块,
阅读全文
摘要:说明《透视HTTP协议》是 罗剑锋 (奇虎360技术专家)在极客时间开的一门专栏课,笔者记录一下学习笔记,仅供参考。 从今天开始,我们开始进入全新的“安全篇”,聊聊与安全相关的 HTTPS、SSL、TLS。 在第 14 讲中,我曾经谈到过 HTTP 的一些缺点,其中的“无状态”在加入 Cookie
阅读全文
摘要:爬虫就是发送http请求(浏览器里面打开发送的都是http请求),然后获取到response,咱们再从response里面找到想要的数据,存储到本地。 接下来就说一下什么是http请求,它里面都有哪些东西,我们在写爬虫的时候,怎么http请求,里面哪些对我们的爬虫有影响。 http请求过程 咱们打开
阅读全文
摘要:说明《透视HTTP协议》是 罗剑锋 (奇虎360技术专家)在极客时间开的一门专栏课,笔者记录一下学习笔记,仅供参考。 在第 20 讲中,我介绍了 HTTP 的缓存控制,第 21 讲我介绍了 HTTP 的代理服务。那么,把这两者结合起来就是这节课所要说的“缓存代理”,也就是支持缓存控制的代理服务。 之
阅读全文
摘要:练习题:制作表格 循环提示用户输入:用户名、密码、邮箱(要求用户输入的长度不能超过20个字符,如果超过则只有前20个字符有效),如果用户输入q或者Q表示不再继续输入,将用户的内容一表格形式打印 s = "" while True: v1 = input('请输入你的名字') v2 = input('
阅读全文
摘要:什么是爬虫? 爬虫是什么呢,一般说的爬虫都是网络爬虫。那什么是网络爬虫呢? 百度百科: 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 总结来
阅读全文
摘要:说明《透视HTTP协议》是 罗剑锋 (奇虎360技术专家)在极客时间开的一门专栏课,笔者记录一下学习笔记,仅供参考。 在前面讲 HTTP 协议的时候,我们严格遵循了 HTTP 的“请求 - 应答”模型,协议中只有两个互相通信的角色,分别是“请求方”浏览器(客户端)和“应答方”服务器。 今天,我们要在
阅读全文
摘要:Scrapy是python开发的一个爬虫框架;Scrapy很多模块都是基于Linux下的,所以在windows上面安装的时候,可能会有各种各样的问题 下面整理遇到的问题: 1.直接安装pip install scrapy 2、安装的时候scrapy它要依赖很多其他的模块,一般都是其他的模块安装的时候
阅读全文
摘要:说明《透视HTTP协议》是 罗剑锋 (奇虎360技术专家)在极客时间开的一门专栏课,笔者记录一下学习笔记,仅供参考。 缓存(Cache)是计算机领域里的一个重要概念,是优化系统性能的利器。 由于链路漫长,网络时延不可控,浏览器使用 HTTP 获取资源的成本较高。所以,非常有必要把“来之不易”的数据缓
阅读全文
摘要:import re help(re.compile) ''' 输出结果为: Help on function compile in module re: compile(pattern, flags=0) Compile a regular expression pattern, returning
阅读全文
摘要:print(type('李杰'.encode('utf-8')))#<class 'bytes'> print(type('李杰'.encode('gbk')))#<class 'bytes'> print(len('李杰'.encode('utf-8')))#6 print(len('李杰'.en
阅读全文
摘要:说明《透视HTTP协议》是 罗剑锋 (奇虎360技术专家)在极客时间开的一门专栏课,笔者记录一下学习笔记,仅供参考。 在之前的第 13、14 讲中,我曾经说过,HTTP 是“无状态”的,这既是优点也是缺点。优点是服务器没有状态差异,可以很容易地组成集群,而缺点就是无法支持需要记录状态的事务操作。 好
阅读全文
摘要:竖线-匹配两者之一 竖线表示 匹配 前者 或 后者 。 特别要注意的是, 竖线在正则表达式的优先级是最低的, 这就意味着,竖线隔开的部分是一个整体 比如 绿色|橙 表示 要匹配是 绿色 或者 橙 , 而不是 绿色 或者 绿橙 从下面的文本里面抓取 所有职位的薪资 Python3 高级开发工程师 上海
阅读全文
摘要:说明《透视HTTP协议》是 罗剑锋 (奇虎360技术专家)在极客时间开的一门专栏课,笔者记录一下学习笔记,仅供参考。 在专栏第 1 讲时我曾经说过,为了实现在互联网上构建超链接文档系统的设想,蒂姆·伯纳斯 - 李发明了万维网,使用 HTTP 协议传输“超文本”,让全世界的人都能够自由地共享信息。 “
阅读全文
摘要:起始位置 和单行,多行模式^表示匹配文本的起始位置。正则表达式可以设定单行模式和多行模式如果是单行模式,表示匹配整个文本的开头位置如果是多行模式,表示匹配文本每行的开头位置 比如,下面的文本中,每行最前面的数字表示水果的编号,最后的数字表示价格 001-苹果价格-60, 002-橙子价格-70, 0
阅读全文
摘要:说明《透视HTTP协议》是 罗剑锋 (奇虎360技术专家)在极客时间开的一门专栏课,笔者记录一下学习笔记,仅供参考。 在第 14 讲里,我曾经提到过 HTTP 的性能问题,用了六个字来概括:“不算差,不够好”。同时,我也谈到了“队头阻塞”,但由于时间的限制没有展开来细讲,这次就来好好地看看 HTTP
阅读全文
摘要:对元字符的转义: 反斜杠\在正则表达式中有多种用途。 比如,我们要在下面的文本中搜索,所有点前面的字符串,也包含点本身。 苹果.是绿色的 橙子.是橙色的 香蕉.是黄色的 如果,我们这样写正则表达式.*.,聪明的你肯定发现不对劲 因为点是一个元字符,直接出现在正则表达式中,表示匹配任意的单字符,不能表
阅读全文
摘要:说明《透视HTTP协议》是 罗剑锋 (奇虎360技术专家)在极客时间开的一门专栏课,笔者记录一下学习笔记,仅供参考。 上次我们谈到了 HTTP 报文里的 body,知道了 HTTP 可以传输很多种类的数据,不仅是文本,也能传输图片、音频和视频。 早期互联网上传输的基本上都是只有几 K 大小的文本和小
阅读全文
摘要:今天我要与你分享的话题是“海纳百川:HTTP 的实体数据”。 这一讲是“进阶篇”的第一讲,从今天开始,我会用连续的 8 讲的篇幅来详细解析 HTTP 协议里的各种头字段,包括定义、功能、使用方式、注意事项等等。学完了这些课程,你就可以完全掌握 HTTP 协议。 在前面的“基础篇”里我们了解了 HTT
阅读全文

浙公网安备 33010602011771号