Loading

摘要: 使用代理防止大量爬取时被封ip 原理 普通访问b站 使用代理,d为代理ip 示例 # 原理. 通过第三方的一个机器去发送请求 import requests # 218.60.8.83:3129 proxies = { "https": "https://218.60.8.83:3129" } re 阅读全文
posted @ 2024-12-19 22:30 一只大学生 阅读(17) 评论(0) 推荐(0)
摘要: 防盗链: 溯源, 当前本次请求的上一级是谁 案例 抓取梨视频 # 1. 拿到contId # 2. 拿到videoStatus返回的json. -> srcURL # 3. srcURL里面的内容进行修整 # 4. 下载视频 import requests # 拉取视频的网址 url = "http 阅读全文
posted @ 2024-12-19 22:16 一只大学生 阅读(17) 评论(0) 推荐(0)
摘要: ![image](https://img2024.cnblogs.com/blog/3493315/202412/3493315-20241219215925098-456853972.png) 阅读全文
posted @ 2024-12-19 21:59 一只大学生 阅读(11) 评论(0) 推荐(0)
摘要: Cookie存储在用户的浏览器中 Token 一般携带在url后面或headers中,有签名加密,安全性相对更高 案例 爬取书架上内容 # 登录 -> 得到cookie # 带着cookie 去请求到书架url -> 书架上的内容 # 必须得把上面的两个操作连起来 # 我们可以使用session进行 阅读全文
posted @ 2024-12-19 21:49 一只大学生 阅读(35) 评论(0) 推荐(0)
摘要: 用爬虫下载图片,当下载大量图片时可能会感觉卡,这是因为pycharm给每个文件都加了索引以便快速查找。想要防止卡顿,可以将图片目录转化为已排除(红色文件夹)。 具体操作 阅读全文
posted @ 2024-12-19 11:17 一只大学生 阅读(31) 评论(0) 推荐(0)