随笔档案「2022年5月20日」：爬虫_urllib的请求 ... - 创客未来

2022年5月20日

摘要： 1.get请求的quote方法 quote（）方法：是将汉字转换成unicode编码 import urllib.request import urllib.parse url = 'https://www.baidu.com/s?wd=' #请求对象的定制是为了解决反爬的第一种手段 headers 阅读全文

posted @ 2022-05-20 16:33 创客未来阅读(49) 评论(0) 推荐(0)

爬虫_请求对象的定制（UA反爬）

摘要： UA介绍 User Agent中文名为用户代理，简称 UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、cpu类型、浏览器及版本。浏览器内核、浏览器渲染引擎、浏览器语言、浏览器插件等。为什么出现UA 案例代码 import urllib.request url = 'http 阅读全文

posted @ 2022-05-20 15:18 创客未来阅读(176) 评论(0) 推荐(0)

爬虫_urllib_下载

摘要：目的：将获取得到的信息下载到本地这里主要用到了 urllib.request.urlretrieve()方法 1.下载网页 # # 使用urllib 下载网页、图片、视频 #@author:tnwner #@date:2022-05-20 14:22 # import urllib.request 阅读全文

posted @ 2022-05-20 14:40 创客未来阅读(114) 评论(0) 推荐(0)

爬虫相关概念

摘要： 1.什么是爬虫？通过一个程序，更加url进行爬取网页，获取有用信息。使用程序模拟浏览器，去向服务器发送请求，获取响应信息。 2.爬虫的核心？爬取网页：爬取整个网页，包含了网页中所有的内容解析数据：将网页中你得到的数据进行解析难点：爬虫和反爬虫之间的博弈 3.爬虫的用途？数据分析/人工数据集阅读全文

posted @ 2022-05-20 14:14 创客未来阅读(66) 评论(0) 推荐(0)

创客未来

公告