05 2021 档案

摘要:思路 1 先调用模块 2 定义一个函数 2.1 获取网址(点击评论 找到JSON的文件(分析评论preview)获取Request URL后面的地址) 2.2 添加用户的请求头 2.3 使用get方法发送请求 2.4 转化格式 并返回(return)格式(.text) 3. 应为要以键值对的格式保存 阅读全文
posted @ 2021-05-18 10:10 .笨蛋小韩 阅读(447) 评论(0) 推荐(0)
摘要:import requests # (1)网址 url = 'https://www.xslou.com/login.php' # (2)输入登录框-->输入密码框-->点击登录找到php文件-->username data = {'username':'18600605736','password 阅读全文
posted @ 2021-05-13 10:41 .笨蛋小韩 阅读(446) 评论(0) 推荐(0)
摘要:post请求 语法结构 requests.post(url,data=None,json=None) 参数说明 url:需要爬取的网址 data:请求数据 json:json格式的数据 案例:登录小说楼 https://www.xslou.com/loqin.php import requests 阅读全文
posted @ 2021-05-13 10:33 .笨蛋小韩 阅读(704) 评论(0) 推荐(0)
摘要:#百度jk图片 import requests # 请求头 header={"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 阅读全文
posted @ 2021-05-13 10:29 .笨蛋小韩 阅读(248) 评论(0) 推荐(0)
摘要:requests库常用的方法 requests.Request(url) 构造一个请求,支持以下各种方式 requests.get() 发送get请求 requests.post() 发送post请求 requests.head() 获取HTML的头部信息 requests.put() 发送put请 阅读全文
posted @ 2021-05-13 09:44 .笨蛋小韩 阅读(1599) 评论(0) 推荐(0)
摘要:错误解析 异常处理主要用到两大类 urllib.error.URLError:用于捕获由urllib.request产生的异常,使用reason属性返回错误原因 urllib.error.HTTPError:用于处理HTTP与HTTPS请求的错误,它有三个属性 code:用于返回的状态码 reaso 阅读全文
posted @ 2021-05-13 09:16 .笨蛋小韩 阅读(107) 评论(0) 推荐(0)
摘要:使用Cookie 为什么需要使用Cookie 解决http的无状态性 使用步骤 实例化MozillaCookieJar(保存Cookie) 创建handler对象(Cookie的处理器) 创建opener对象 打开网页(发送请求获取响应) 保存Cookie文件 案例:获取百度贴吧的Cookie并保存 阅读全文
posted @ 2021-05-13 09:10 .笨蛋小韩 阅读(94) 评论(0) 推荐(0)
摘要:IP代理的使用 IP代理的分类 透明代理:目标网址知道你使用了代理并且知道你的源IP地址 匿名代理:匿名程序比较低 也就是网站知道你使用代理 但是查不出来源IP地址 高匿代理:网站不知道你使用了代理 也不知道源IP地址 IP代理的方式 免费代理IP:https://ip.jiangxianli.co 阅读全文
posted @ 2021-05-13 09:06 .笨蛋小韩 阅读(182) 评论(0) 推荐(0)
摘要:import urllib.request # 获取目标网址 url = 'https://www.baidu.com/' # 添加请求头 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/ 阅读全文
posted @ 2021-05-13 08:54 .笨蛋小韩 阅读(89) 评论(0) 推荐(0)
摘要:post请求 语法结构 requests.post(url,data = None,json = None) 参数说明 url:需要爬取的网站的网址 data:请求数据 json:json格式的数据 案例登录小说楼 https://www.xslou.com/login.php import req 阅读全文
posted @ 2021-05-13 08:46 .笨蛋小韩 阅读(189) 评论(0) 推荐(0)
摘要:print(" 反扒 ") #(headers req 反扒) url = 'https://www.cnblogs.com/' # 用户代理 headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 阅读全文
posted @ 2021-05-13 08:42 .笨蛋小韩 阅读(60) 评论(0) 推荐(0)
摘要:发送请求 urllib.request库 模拟浏览器发起一个HTTP请求,并获取请求响应结果 urllib.request.urlopen的语法格式 urllib(url.data = None,[timepput,]*,cafile = new.capath = Name,cadefault = 阅读全文
posted @ 2021-05-12 20:39 .笨蛋小韩 阅读(523) 评论(0) 推荐(0)
摘要:urllib简介 urllib是pyhton自带的标准库用于网络请求库,无需安装,直接引用 通常用于爬虫开发,API(应用程序编程接口)数据获取和测试 urllib库的4大模块 urllib.request:用于打开和读取URL urllib.error:包含提出的例外(异常)urllib.requ 阅读全文
posted @ 2021-05-12 17:33 .笨蛋小韩 阅读(550) 评论(0) 推荐(0)