摘要:
常用模块:requests与urllib requests更简洁 ##requests模块 python原生基于网络请求模块,效率高,简单便捷 ##如何使用 指定url 发起请求 获取响应数据 持久化存储 ##爬取网页代码 import requests url='https://www.sogou 阅读全文
posted @ 2021-07-27 20:30
无极是一种信仰
阅读(70)
评论(0)
推荐(0)
摘要:
##HTTP协议 超文本传输协议(Hyper Text Transfer Protocol,HTTP)是一个简单的请求-响应协议,它通常运行在TCP之上。它指定了客户端可能发送给服务器什么样的消息以及得到什么样的响应。请求和响应消息的头以ASCII形式给出;而消息内容则具有一个类似MIME的格式。这 阅读全文
posted @ 2021-07-27 19:44
无极是一种信仰
阅读(37)
评论(0)
推荐(0)
摘要:
##什么是爬虫 通过编写程序,模拟游览器上网,然后去互联网上抓取数据的过程 ##爬虫在使用场景的分类 通用爬虫: 抓取的是一整张页面 聚焦爬虫: 是建立在通用爬虫的基础上,抓取的是页面中特定的内容 增量式爬虫: 检测网站中数据更新的情况,只会抓取网站中最新更新出来的数据。 ##反爬机制与反反爬策略 阅读全文
posted @ 2021-07-27 18:22
无极是一种信仰
阅读(113)
评论(0)
推荐(0)

浙公网安备 33010602011771号