爬虫时url中http和https的区别

今天在爬取一个网页时发现总是爬取不成功,信息量很少,只有几行代码,而原网页代码量是很多的,后来我把url中的https换成了http后就把网页源码全部爬取了,查了资料后发现url中使用http和https是有很大区别的:http获取数据时信息齐全,https获取数据的信息有缺失,在确定网络地址后,一般采用http

如何访问没有采用HTTPS协议的网站:

from urllib import request
# 导入pythopn ssl处理模块
import ssl

# 利用非认证上下文环境替换认证的上下文环境
ssl._create_default_https_context = ssl._create_unverified_context
# 之前12306没有采用HTTPS协议,需要这样设置一下,18年开始采用了之后就不用这样操作了
url = "https://www.12306.cn/index/"
rsp = request.urlopen(url)
html = rsp.read().decode()
print(html)

1.HTTP和HTTPS的基本概念
  HTTP:是互联网上应用最为广泛的一种网络协议,是一个客户端和服务器端请求和应答的标准(TCP),用于从WWW服务器传输超文本到本地浏览器的传输协议,它可以使浏览器更加高效,使网络传输减少。
  HTTPS:是以安全为目标的HTTP通道,简单讲是HTTP的安全版,即HTTP下加入SSL层,HTTPS的安全基础是SSL,因此加密的详细内容就需要SSL。

2.HTTP与HTTPS之间的区别 
  HTTP协议传输的数据都是未加密的,也就是明文的,因此使用HTTP协议传输隐私信息非常不安全,为了保证这些隐私数据能加密传输,于是网景公司设计了SSL(Secure Sockets Layer)协议用于对HTTP协议传输的数据进行加密,从而就诞生了HTTPS。简单来说,HTTPS协议是由SSL+HTTP协议构建的可进行加密传输、身份认证的网络协议,要比HTTP协议安全。
  HTTPS和HTTP的区别主要如下:
  1、https协议需要到ca申请证书,一般免费证书较少,因而需要一定费用。
  2、http是超文本传输协议,信息是明文传输,https则是具有安全性的ssl加密传输协议。
  3、http和https使用的是完全不同的连接方式,用的端口也不一样,前者是80,后者是443。
  4、http的连接很简单,是无状态的;https协议是由SSL+HTTP协议构建的可进行加密传输、身份认证的网络协议,比http协议安全。

posted @ 2019-03-22 13:32  皮皮嘉  阅读(6122)  评论(0编辑  收藏  举报