随笔分类 - Python
摘要:Pycharm和Jetbrain家的其他产品快速点两次shift都会调出全局搜索,这在某些切换中英文的情况下会造成不便。 网上能搜到的大部分方法都会说找到“ide.suppress.double.click.handler”勾复选框的说法,但这个选项在2017年以后的版本已经不见了。 新版在设置面板
阅读全文
摘要:一个奇怪的问题,在uwsgi配置使用socket与Nginx通信,且在Django/Flask等使用了多进程时,请求会卡住,具体配置如下: UWSGI配置: [uwsgi] chdir = /home/pi/uwsgiapp wsgi-file = app.py callable=app maste
阅读全文
摘要:Selenium是不少爬虫工程师都会用的一个工具,它对页面元素的属性,文本等的提取都做的不错,但有一个缺点是只能获取到img元素的链接而不是图片二进制(即便在访问时已经加载过了一次图片)。想把指定的img保存到本地,只能使用获取的链接手动下载,不仅多花费了不少时间,而且在某些限制外链的站点还可能遇到
阅读全文
摘要:蓝奏云的下载链接解析思路并不复杂,但网上几款真实链接解析工具,要么解析出的地址只是跳转链接,要么需要输入验证码,而蓝奏云网页版在使用是几乎是不会遇上验证码的,这实际上是因为蓝奏云在下载过程中有几个小坑。 直接上可用代码,后面再进行解释: def downlanzou(lanzouurl, path,
阅读全文
摘要:PornHub的免费视频登录后是可以直接下载的,且链接就直接放在源代码里,我们只需要在请求中带上Cookies即可下载。但收费视频只支持在线观看,如果免费用户要下载到本地,就需要找到在线播放对应的文件链接。 打开Chrome调试模式并播放视频,Network选项卡里显示视频是从https://cv.
阅读全文
摘要:最近在逛某论坛时碰到了DuFile网盘的资源,对于这列靠下载限速+繁琐跳转促使用户付费的收费盘,当然要破解一下玩玩。经过几个小时的分析,笔者发现这家网盘的策略是比较有趣的,故此记录一下。 注意:此类收费盘,破解会员高速通道在理论上基本是不可能的,我们能做的只是规避掉等待时间。 打开链接,http:/
阅读全文
摘要:最近在使用Python 的wget包下载文件时遭遇了OSError: filename too long的异常,经检查下载的文件名确实很长,于是去查询Linux x86_64架构下最长文件名支持是多少。 在这篇文章中提到Linux单目录名支持最大255个字符,全路径支持4096,但出问题的文件名称才
阅读全文
摘要:业务需求 现需对某国外图片网站进行大量爬取,为提高效率使用多进程,对多个子目录下的图片同时爬取。由于网站对单IP的下载量有限额,需要在额度耗尽时自动从代理池里更换新代理。IP的可用额度无法在本地计算或实时获取,只有在耗尽时才能从目标网站得到异常通知。 业务分析 虽然是单机并发,但所面对的问题其实属于
阅读全文
摘要:问题描述 最近要在deepin上跑一个定时脚本,功能是每天到点从redis里取文字并利用百度API转为语音,然后播放。脚本用Python编写,大体思路是获得语音文件后,用Python的pexpect模块模拟终端调用mplayer播放。之前在树莓派上运行的都很正常,在deepin终端里直接运行也没问题
阅读全文
摘要:前言 E站爬虫在网上已经有很多了,但多数都只能以图片为单位下载,且偶尔会遇到图片加载失败的情况;熟悉E站的朋友们应该知道,E站许多资源都是有提供BT种子的,而且通常打包的是比默认看图模式更高清的文件;但如果只下载种子,又会遇到某些资源未放种/种子已死的情况。本文将编写一个能自动检测最优下载来源并储存
阅读全文

浙公网安备 33010602011771号