随笔档案「2023年6月」 - 与太阳肩并肩

代理在爬虫中的应用以及如何测试代理是否成功

摘要：1.查看origin的value值如果和proxies相同，则代理生效： 2.测试代理成功后，将代理添加到爬虫程序中使用：阅读全文

posted @ 2023-06-26 22:06 与太阳肩并肩阅读(132) 评论(0) 推荐(0)

代理理论讲解

摘要：代理：破解放IP这种反爬机制代理的概念： - 代理服务器。代理的作用： - 突破自身IP访问的限制。 - 可以隐藏自身真是IP代理相关的网站： - 快代理 - 西祠代理 - www.goubanjia.com 阅读全文

posted @ 2023-06-25 21:42 与太阳肩并肩阅读(83) 评论(0) 推荐(0)

模拟登录cookie操作

摘要：1.方法一自动添加cookie：定义session方法，登录后使用session.get（）代替requests.get()： 2.方法二：手动添加cookie_cookie请求登录用户主页1：先找到登录请求的url中的cookie: 3.方法二：手动添加cookie_cookie请求登录用户主页2 阅读全文

posted @ 2023-06-25 21:31 与太阳肩并肩阅读(177) 评论(0) 推荐(0)

模拟登录实现流程梳理

摘要：1.超级鹰验证码图片识别函数 '''思路： 1.requests对网址发送请求获取图片 2.下载图片图片到本地 3.用超级鹰识别图片获取验证码'''import requestsfrom lxml import etreefrom hashlib import md5# 封装识别验证码图片的函数# 阅读全文

posted @ 2023-06-24 15:15 与太阳肩并肩阅读(114) 评论(0) 推荐(0)

古诗文网验证码识别

摘要：1.将超级鹰的验证码识别demo代码添加到请求代码中_1： 2.将超级鹰的验证码识别demo代码添加到请求代码中_2： 3.先请求网站数据下载验证码图片，调用超级鹰函数进行图片验证码识别： 4.识别古诗文网的登录验证码图片：阅读全文

posted @ 2023-06-24 12:32 与太阳肩并肩阅读(117) 评论(0) 推荐(0)

超级鹰验证码识别网站流程

摘要：1.注册登录后进入用户中心： 2.查看是否有积分如果没有则关注公众号领取积分： 3.关注超级鹰公众号领取识别码积分： 4.点击软件ID生成一个软件ID_1： 5.创建相对应的软件名和使用说明： 6.创建成功后进入开发者文档下载python语言demo： 7.超级鹰py文件修改账号密码软件ID： 8. 阅读全文

posted @ 2023-06-24 11:35 与太阳肩并肩阅读(276) 评论(0) 推荐(0)

作业：爬取站长素材中免费简历模板

摘要：1.爬取免费简历模板_1： 2.爬取免费简历模板_2： 3.简历爬取结果：阅读全文

posted @ 2023-06-24 10:12 与太阳肩并肩阅读(30) 评论(0) 推荐(0)

xpath解析案例-全国城市名称爬取

摘要：url： https://www.aqistudy.cn/historydata/ 1.获取热门城市的城市名称： 2.获取所有城市的名称： 3.用竖杠符号连接xpath：阅读全文

posted @ 2023-06-23 16:16 与太阳肩并肩阅读(77) 评论(0) 推荐(0)

xpath解析案例-4k图片解析下载

摘要：url: https://pic.netbian.com/4kmeinv/ 1.li标签_a标签_获取img标签中src和alt属性: 2.图片名称中文乱码的解决方式： 3.图片下载保存到指定文件夹：阅读全文

posted @ 2023-06-23 14:53 与太阳肩并肩阅读(31) 评论(0) 推荐(0)

xpath实战-苏州租房

摘要：url: https://sz.5i5j.com/zufang?channel_name=baidu_sem_track&channel_link_type=web&hash_key=21oblcfX5ajZyIj5bQPY&callback_id=wHfPdxtr&sat_cf=2&_data_v 阅读全文

posted @ 2023-06-23 14:05 与太阳肩并肩阅读(40) 评论(0) 推荐(0)

xpath解析基础

摘要：1.xpath基础用法： 2.class定位属性 3.索引定位，定位到`苏轼`，注意是从1开始计算： 4.text()方法取文本： 5.text()方法取文本_2： 6.text()获取文本_3：获取tang标签下面所有的文本内容： 7.@属性名称，获取属性值：阅读全文

posted @ 2023-06-23 12:12 与太阳肩并肩阅读(48) 评论(0) 推荐(0)

bs4解析概述

摘要：1.方法总结： 2.soup.find()用法： 3.soup.find_all('a')获取所有的a标签： 4.soup.select('.tang') '.'代表class，拿到tang这个类： 5.代表单个层级： 6.空格代表多个层级： 7..text获取标签的文本内容： 8.获取href标签阅读全文

posted @ 2023-06-07 22:39 与太阳肩并肩阅读(90) 评论(0) 推荐(0)

正则解析案例01__网页图片爬取_爬取多页图片数据

摘要：趣图地址：https://www.gxt8.cn/gxtp01/ 1.正则表达式提取网页图片源码： 2.提取页面所有的图片地址后续将其拼接： 3.获取图片二进制_定义图片存储路径_图片二进制写入图片路径: 4.获取多页图片数据：阅读全文

posted @ 2023-06-06 21:38 与太阳肩并肩阅读(63) 评论(0) 推荐(0)

图片数据爬取

摘要：1.图片爬取的是二进制数据阅读全文

posted @ 2023-06-06 20:44 与太阳肩并肩阅读(50) 评论(0) 推荐(0)

数据解析概述

摘要：阅读全文

posted @ 2023-06-06 20:43 与太阳肩并肩阅读(41) 评论(0) 推荐(0)

requests模块简易网页采集器和破解百度翻译

摘要：1.网页采集器_1 2.破解百度翻译阅读全文

posted @ 2023-06-05 21:26 与太阳肩并肩阅读(52) 评论(0) 推荐(0)

06 2023 档案