一.爬虫的小知识:
我学的爬虫课有:
爬虫是什么?
网络爬虫(Web Spider)又称“网络蜘蛛”或“网络机器人”,它是一种按照一定规则从 Internet 中获取网页内容的程序。
原理:
爬虫程序之所以可以抓取数据,是因为爬虫能够对网页进行分析,并在网页中提取出想要的数据。在学习 Python 爬虫模块前,我们有必要先熟悉网页的基本结构,这是编写爬虫程序的必备知识。
HTML(超文本标记语言)、CSS(层叠样式表)和 JavaScript(简称“JS”动态脚本语言)
准备:
Python语言
Web前端
HTTP协议
第一个爬虫:
# 1.服务器渲染:在服务器那边直接把服务器的数据和hrml整合在一起。统一返回给浏览器
# 2.客户端渲染:第一次请求只要一个html骨架,第二次的请求拿到数据,进行数据展示
# 在源代码中,拿不到数据
# 熟练使用浏览器的抓包工具
# HTTP协议(TCP/IP SOAP SMTP 协议)《超文本传输协议》
# 当前的url遵循规则
# 1.请求:
# 请求行-》 请求方式 请求的url地址 协议
# 请求头 -》 放一些服务器需要使用的附加信息
#
# 请求体 -》一般放一些请求的参数
# 2.状态行-》 协议 状态码(302--重定向)
# 响应头-》放一些客户端使用一些的附加信息
#
# 相应体-》服务器返回的真正客户端要用的内容(HTML,json)
# 相对重要的
# 1.user-agent :请求载体的身份标识
# 2.referer:防盗链(反爬用到)
# 3.cookie:本地的字符数据信息(用户登录信息 反爬的token)
# 响应头的一些。。。
# 1.cookie:本地的字符串数据信息(用户登录反爬的token)
# 2.各种神奇的字符串(一般都是token,一般放反爬 看经验)
# 请求方式 GET显示提交 POST (更新)隐示提交from urllib.request import urlopen
url = "http://www.baidu.com"
resp = urlopen(url)
# print(resp.read().decode('utf-8'))
with open("baidu.html", mode="w", encoding="utf-8") as f:
f.write(resp.read().decode('utf-8'))
print("over")
resp.close()
浙公网安备 33010602011771号