06 2023 档案

代理在爬虫中的应用以及如何测试代理是否成功
摘要:1.查看origin的value值如果和proxies相同,则代理生效: 2.测试代理成功后,将代理添加到爬虫程序中使用: 阅读全文

posted @ 2023-06-26 22:06 与太阳肩并肩 阅读(49) 评论(0) 推荐(0)

代理理论讲解
摘要:代理: 破解放IP这种反爬机制代理的概念: - 代理服务器。代理的作用: - 突破自身IP访问的限制。 - 可以隐藏自身真是IP代理相关的网站: - 快代理 - 西祠代理 - www.goubanjia.com 阅读全文

posted @ 2023-06-25 21:42 与太阳肩并肩 阅读(29) 评论(0) 推荐(0)

模拟登录cookie操作
摘要:1.方法一自动添加cookie:定义session方法,登录后使用session.get()代替requests.get(): 2.方法二:手动添加cookie_cookie请求登录用户主页1:先找到登录请求的url中的cookie: 3.方法二:手动添加cookie_cookie请求登录用户主页2 阅读全文

posted @ 2023-06-25 21:31 与太阳肩并肩 阅读(153) 评论(0) 推荐(0)

模拟登录实现流程梳理
摘要:1.超级鹰验证码图片识别函数 '''思路: 1.requests对网址发送请求获取图片 2.下载图片图片到本地 3.用超级鹰识别图片获取验证码'''import requestsfrom lxml import etreefrom hashlib import md5# 封装识别验证码图片的函数# 阅读全文

posted @ 2023-06-24 15:15 与太阳肩并肩 阅读(47) 评论(0) 推荐(0)

古诗文网验证码识别
摘要:1.将超级鹰的验证码识别demo代码添加到请求代码中_1: 2.将超级鹰的验证码识别demo代码添加到请求代码中_2: 3.先请求网站数据下载验证码图片,调用超级鹰函数进行图片验证码识别: 4.识别古诗文网的登录验证码图片: 阅读全文

posted @ 2023-06-24 12:32 与太阳肩并肩 阅读(32) 评论(0) 推荐(0)

超级鹰验证码识别网站流程
摘要:1.注册登录后进入用户中心: 2.查看是否有积分如果没有则关注公众号领取积分: 3.关注超级鹰公众号领取识别码积分: 4.点击软件ID生成一个软件ID_1: 5.创建相对应的软件名和使用说明: 6.创建成功后进入开发者文档下载python语言demo: 7.超级鹰py文件修改账号密码软件ID: 8. 阅读全文

posted @ 2023-06-24 11:35 与太阳肩并肩 阅读(216) 评论(0) 推荐(0)

作业:爬取站长素材中免费简历模板
摘要:1.爬取免费简历模板_1: 2.爬取免费简历模板_2: 3.简历爬取结果: 阅读全文

posted @ 2023-06-24 10:12 与太阳肩并肩 阅读(23) 评论(0) 推荐(0)

xpath解析案例-全国城市名称爬取
摘要:url: https://www.aqistudy.cn/historydata/ 1.获取热门城市的城市名称: 2.获取所有城市的名称: 3.用竖杠符号连接xpath: 阅读全文

posted @ 2023-06-23 16:16 与太阳肩并肩 阅读(66) 评论(0) 推荐(0)

xpath解析案例-4k图片解析下载
摘要:url: https://pic.netbian.com/4kmeinv/ 1.li标签_a标签_获取img标签中src和alt属性: 2.图片名称中文乱码的解决方式: 3.图片下载保存到指定文件夹: 阅读全文

posted @ 2023-06-23 14:53 与太阳肩并肩 阅读(26) 评论(0) 推荐(0)

xpath实战-苏州租房
摘要:url: https://sz.5i5j.com/zufang?channel_name=baidu_sem_track&channel_link_type=web&hash_key=21oblcfX5ajZyIj5bQPY&callback_id=wHfPdxtr&sat_cf=2&_data_v 阅读全文

posted @ 2023-06-23 14:05 与太阳肩并肩 阅读(18) 评论(0) 推荐(0)

xpath解析基础
摘要:1.xpath基础用法: 2.class定位属性 3.索引定位,定位到`苏轼`,注意是从1开始计算: 4.text()方法取文本: 5.text()方法取文本_2: 6.text()获取文本_3:获取tang标签下面所有的文本内容: 7.@属性名称,获取属性值: 阅读全文

posted @ 2023-06-23 12:12 与太阳肩并肩 阅读(8) 评论(0) 推荐(0)

bs4解析概述
摘要:1.方法总结: 2.soup.find()用法: 3.soup.find_all('a')获取所有的a标签: 4.soup.select('.tang') '.'代表class,拿到tang这个类: 5.代表单个层级: 6.空格代表多个层级: 7..text获取标签的文本内容: 8.获取href标签 阅读全文

posted @ 2023-06-07 22:39 与太阳肩并肩 阅读(31) 评论(0) 推荐(0)

正则解析案例01__网页图片爬取_爬取多页图片数据
摘要:趣图地址:https://www.gxt8.cn/gxtp01/ 1.正则表达式提取网页图片源码: 2.提取页面所有的图片地址后续将其拼接: 3.获取图片二进制_定义图片存储路径_图片二进制写入图片路径: 4.获取多页图片数据: 阅读全文

posted @ 2023-06-06 21:38 与太阳肩并肩 阅读(25) 评论(0) 推荐(0)

图片数据爬取
摘要:1.图片爬取的是二进制数据 阅读全文

posted @ 2023-06-06 20:44 与太阳肩并肩 阅读(18) 评论(0) 推荐(0)

数据解析概述
摘要: 阅读全文

posted @ 2023-06-06 20:43 与太阳肩并肩 阅读(9) 评论(0) 推荐(0)

requests模块简易网页采集器和破解百度翻译
摘要:1.网页采集器_1 2.破解百度翻译 阅读全文

posted @ 2023-06-05 21:26 与太阳肩并肩 阅读(41) 评论(0) 推荐(0)

导航