haaiso - 博客园

2021年12月

摘要： res = requests.get(url=url,headers=headers, stream=True) total_size = int(res.headers['Content-Length']) size_mb = total_size/1048576 print("文件大小为：",r 阅读全文

posted @ 2021-12-12 06:09 haaiso 阅读(782) 评论(0) 推荐(0)

2021年7月

去除python字符串中间的转义符号

摘要： strip()可以去除头尾的转义符号，但不能去除字符串中间的比如title = "13.\t13" 拿到手的就是变量title，无法直接加r变成原始字符串这时候可以使用repr()方法 print(repr(title)) 结果为'13.\t13'，发现多了单引号 new_title = rep 阅读全文

posted @ 2021-07-15 05:01 haaiso 阅读(2454) 评论(0) 推荐(0)

爬取网页做数据分析，遭遇反爬的规避方法

摘要： requests中所有能加的都加上了，一直是412错误。使用selenium打开网页为空白，下了个八爪鱼采集器尝试，也是打不开网页。IDM直接下载网页失败，手机端ADM下载网页失败，Firefox插件Downthemall下载网页失败最后突发奇想使用chrome的Downthemall插件，可以批阅读全文

posted @ 2021-07-13 10:26 haaiso 阅读(160) 评论(0) 推荐(0)

循环中requests模块偶尔卡死，timeout无济于事，超时跳出方法

摘要：循环requests时候，未知原因，偶尔会卡死，不报错也不继续，timeout参数无效，解决办法如下使用eventlet，代码如下，用于循环之内 import eventlet eventlet.monkey_patch()#这行必须有 time_limit = 30 #(循环中)30s未完成一次阅读全文

posted @ 2021-07-08 05:05 haaiso 阅读(710) 评论(0) 推荐(0)

公告