2025年7月9日
摘要: selenium 防检测策略的方法汇总: 合理设置延迟:请求间添加随机延迟 (2-10秒) 限制爬取频率:控制每小时/每天的请求量 轮换用户代理:准备至少10个不同的User-Agent 使用住宅代理:优先选择高质量的住宅代理IP 处理验证码:集成2Captcha或Anti-Captcha服务 定期 阅读全文
posted @ 2025-07-09 16:31 梅格安小姐 阅读(112) 评论(0) 推荐(0)
摘要: 在使用 Selenium 自动化测试或爬取网页时,可能会遇到弹窗,影响脚本执行,例如广告、登录提示、浏览器通知。 怎么在打开页面的时候,关闭弹窗呢? 这里我们就要区分,这个网页弹窗是属于哪种类型的: 是不是位置不限,需要手动找位置的,例如那种还会弹来弹去的广告 or 是固定的广告位,一直都会有,固定 阅读全文
posted @ 2025-07-09 16:31 梅格安小姐 阅读(252) 评论(0) 推荐(0)
摘要: 前提: 最近看了个书,周末要参加读书会,要分享这本书的内容。一般来说,我都是写好了内容文档,然后在网上找一些模板套上去。 最近发现,有些网站已经可以按照文档,自动生成PPT模板了,里面的格式、图片全部已经排版好了,作为简单的分享来说,足够用了。 好处就是,我们可以省下编排PPT的时间了,在要求不是太 阅读全文
posted @ 2025-07-09 16:31 梅格安小姐 阅读(393) 评论(0) 推荐(0)
摘要: 看到有朋友评论问,用selenium怎么模仿人类行为,去操作网页的页面呢? 我想了想,这确实是一个很大的点,不应该是一段代码能解决的, 就像是,如果让程序模拟人类的行为。例如模拟人类买菜,做饭,吃饭,聊天,蹲坑等 这个过程中最重要的不是结果,不是程序能不能完成这些事,而是做这些事的时候,能不能尽可能 阅读全文
posted @ 2025-07-09 16:31 梅格安小姐 阅读(16) 评论(0) 推荐(0)
摘要: 我在搞爬取的时候,发现有些网站直接用driver.get(url) 跳转到目标特定的网址的时候,会被强制跳转到其他的网址上,但是如果是自己手动,在网址栏那里输入网址,并点回车,却能完成跳转。 这是在使用 Selenium 进行自动化测试或爬虫时,driver.get(url) 和 手动输入网址并回车 阅读全文
posted @ 2025-07-09 16:30 梅格安小姐 阅读(39) 评论(0) 推荐(0)
摘要: 我在使用selenium的find_element的方式去获取网页元素,一般通过xpath、css_selector、class_name的方式去获取元素的绝对位置。 但是有时候如果网页多了一些弹窗或者啥之类的,绝对位置会发生变化,使用xpath等方法,需要经常变动。 于是我在想,能不能让selen 阅读全文
posted @ 2025-07-09 16:30 梅格安小姐 阅读(18) 评论(0) 推荐(0)
摘要: 有时候,我们在写好的for循环程序里,会有遇到一些不能预测的报错,有时候在测试的时候并没有遇到这样的错误,但是长时间挂着程序运行的时候,就会遇到了问题,然后就会在循环里一直会出现这个问题,并不断报错。 为了避免不断报错的问题,我们可以在循环里,插入了try except 。 如果遇到error, 计 阅读全文
posted @ 2025-07-09 16:30 梅格安小姐 阅读(45) 评论(0) 推荐(0)
摘要: 使用os.path 读取路径下的文件,并拼接文件名,可能会遇到这个问题: ValueError: Excel file format cannot be determined, you must specify an engine manually. 因为我用的是相对路径的拼接的方法,读取出来会有这 阅读全文
posted @ 2025-07-09 16:30 梅格安小姐 阅读(628) 评论(0) 推荐(0)
摘要: 1. 字符串转json 我们如果使用sql存储json格式,要将json转为字符串才能转。 存入sql前,字典格式转json字符串可以用这个: Table_= ''' [ { "id": 1, "name": "Alice", "task": 25, "work": "alice@example.c 阅读全文
posted @ 2025-07-09 16:30 梅格安小姐 阅读(36) 评论(0) 推荐(0)
摘要: 最近在看一些有趣的数学视频,发现了以前都没发现的,一个简单的计算方法:头同尾合速算和头合尾同速算~ 1. 头同尾合速算法: 大家可以先算一下上面的数,发现了什么规律? 条件一:两个的十位数都是一样的 条件二:左边的个位数+右边的个位数=10 条件三:左边的个位数 - 左边的十位数 =1 这三者条件满 阅读全文
posted @ 2025-07-09 16:30 梅格安小姐 阅读(118) 评论(0) 推荐(0)
摘要: 我今天写SQL,发现我的时间的写法是“年-月-日 时:分:秒 ”, 我想要按照“年-月-日”分类,看看我每一天的入库数据量是多少,然后做出一个报表出来。 sql对时间的处理: SELECT DATE(update_time) AS date_only, COUNT(*) AS record_coun 阅读全文
posted @ 2025-07-09 16:29 梅格安小姐 阅读(17) 评论(0) 推荐(0)
摘要: 当我们看到出现这个错误,说明这个错误,我们写的程序打算对数值做数学运算,例如加减法,但是数据里面包含 None 或 NaN 值,所以计算会报错。 所以,我们要检查数据中某些值是 None 或 NaN(空值) 方法1:检查并处理空值 # 检查DataFrame中的空值 print(df.isnull( 阅读全文
posted @ 2025-07-09 16:29 梅格安小姐 阅读(345) 评论(0) 推荐(0)
摘要: 当有时候要查询电脑的IP地址,一下是一些查询的方法: 可以查询你当前网络的外部IP地址: 方法1:使用命令行查询 Windows系统: curl ifconfig.me 或 nslookup myip.opendns.com resolver1.opendns.com macOS/Linux系统: 阅读全文
posted @ 2025-07-09 16:29 梅格安小姐 阅读(551) 评论(0) 推荐(0)
摘要: 我在用selenium 写爬虫的时候,会遇到这个问题: Message: stale element reference: element is not attached to the page document (Session info: chrome=112.0.5614.0); For do 阅读全文
posted @ 2025-07-09 16:29 梅格安小姐 阅读(92) 评论(0) 推荐(0)
摘要: 在安装使用影刀RPA的时候,在往火狐浏览器中安装影刀插件的时候,遇到浏览器禁止安装插件的警告: “影刀RPA”由于违反 Mozilla 政策,已被阻止 问题 解决方法如下: 解决方法: 1、在firefox的地址栏输入 about:config 2、搜索 extensions.blocklist.e 阅读全文
posted @ 2025-07-09 16:29 梅格安小姐 阅读(267) 评论(1) 推荐(0)
摘要: 我需要一些一个会自动停下来的程序,因为有时候一直爬取某个网站,会引起对方网站的反爬,所以有时候需要停下来,休息一段时间。 先写一个简单的写法,我让程序每隔半秒钟,就print一个数字出来,然后大概超过5秒钟,for循环就结束。 start_time=datetime.datetime.now() p 阅读全文
posted @ 2025-07-09 16:29 梅格安小姐 阅读(32) 评论(0) 推荐(0)