随笔分类 - 爬虫
摘要:Selenium是不少爬虫工程师都会用的一个工具,它对页面元素的属性,文本等的提取都做的不错,但有一个缺点是只能获取到img元素的链接而不是图片二进制(即便在访问时已经加载过了一次图片)。想把指定的img保存到本地,只能使用获取的链接手动下载,不仅多花费了不少时间,而且在某些限制外链的站点还可能遇到
阅读全文
摘要:思路来源于此篇文章,归纳的非常全面,但在具体绕过方案上有些部分讲的并不够明晰,本文着重讲具体如何配置。 因为puppeteer的page.evaluateOnNewDocument在selenium中并无对应功能,所以selenium无法使用相同方案。 const browser = await p
阅读全文
摘要:蓝奏云的下载链接解析思路并不复杂,但网上几款真实链接解析工具,要么解析出的地址只是跳转链接,要么需要输入验证码,而蓝奏云网页版在使用是几乎是不会遇上验证码的,这实际上是因为蓝奏云在下载过程中有几个小坑。 直接上可用代码,后面再进行解释: def downlanzou(lanzouurl, path,
阅读全文
摘要:selenium是一款老牌的自动化测试工具,也被不少人用做爬虫工具。 通常我们使用时都是在Windows或者带图形界面的Linux系统下,且需配合ChromeDriver(或其他浏览器Driver),但生产环境很多时候是纯命令行的Linux环境;其实在这种条件下,selenium也是可以部署使用的,
阅读全文
摘要:前言 此次逆向的是某“你们都懂”领域的图片站,目前此站限制注册,非会员无法访问;前两天偶然搞到了份邀请码,进入后发现质量还可以,于是尝试爬取,在爬虫编写过程中发现此站点采用了不少手段来阻止自动化脚本(或者重放攻击),可以作为一个比较有代表性的爬虫逆向案例,故记录于此。 分析过程 登录进来后,发现页面
阅读全文
摘要:PornHub的免费视频登录后是可以直接下载的,且链接就直接放在源代码里,我们只需要在请求中带上Cookies即可下载。但收费视频只支持在线观看,如果免费用户要下载到本地,就需要找到在线播放对应的文件链接。 打开Chrome调试模式并播放视频,Network选项卡里显示视频是从https://cv.
阅读全文
摘要:最近在逛某论坛时碰到了DuFile网盘的资源,对于这列靠下载限速+繁琐跳转促使用户付费的收费盘,当然要破解一下玩玩。经过几个小时的分析,笔者发现这家网盘的策略是比较有趣的,故此记录一下。 注意:此类收费盘,破解会员高速通道在理论上基本是不可能的,我们能做的只是规避掉等待时间。 打开链接,http:/
阅读全文

浙公网安备 33010602011771号