摘要: 1.get请求的quote方法 quote()方法:是将汉字转换成unicode编码 import urllib.request import urllib.parse url = 'https://www.baidu.com/s?wd=' #请求对象的定制是为了解决反爬的第一种手段 headers 阅读全文
posted @ 2022-05-20 16:33 创客未来 阅读(45) 评论(0) 推荐(0)
摘要: UA介绍 User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、cpu类型、浏览器及版本。浏览器内核、浏览器渲染引擎、浏览器语言、浏览器插件等。 为什么出现UA 案例代码 import urllib.request url = 'http 阅读全文
posted @ 2022-05-20 15:18 创客未来 阅读(168) 评论(0) 推荐(0)
摘要: 目的:将获取得到的信息下载到本地 这里主要用到了 urllib.request.urlretrieve()方法 1.下载网页 # # 使用urllib 下载网页、图片、视频 #@author:tnwner #@date:2022-05-20 14:22 # import urllib.request 阅读全文
posted @ 2022-05-20 14:40 创客未来 阅读(110) 评论(0) 推荐(0)
摘要: 1.什么是爬虫? 通过一个程序,更加url进行爬取网页,获取有用信息。使用程序模拟浏览器,去向服务器发送请求,获取响应信息。 2.爬虫的核心? 爬取网页:爬取整个网页,包含了网页中所有的内容 解析数据:将网页中你得到的数据进行解析 难点:爬虫和反爬虫之间的博弈 3.爬虫的用途? 数据分析/人工数据集 阅读全文
posted @ 2022-05-20 14:14 创客未来 阅读(63) 评论(0) 推荐(0)