Fork me on GitHub

随笔分类 -  爬虫相关

爬虫相关技能总结,注意部分文章具有时效性,目标网站可能改版。
摘要:在某些情况下我们需要检测当前用户是否打开了浏览器开发者工具,比如前端爬虫检测,如果检测到用户打开了控制台就认为是潜在的爬虫用户,再通过其它策略对其进行处理。本篇文章主要讲述几种前端JS检测开发者工具是否打开的方法。 一、重写toString() 对于一些浏览器,比如Chrome、FireFox,如果控制台输出的是对象,则保留对象的引用,每次打开开发者工具的时候都会重新调用一下对象的... 阅读全文
posted @ 2018-07-04 23:14 CC11001100 阅读(20766) 评论(5) 推荐(4)
摘要:在网上冲浪,看到了一个网站的JS加密,下面有一句话: 乍一看这句话吓一跳,我去这么猛,然后就很有兴趣想看看究竟是怎样一种加密算法。 对于破解JS加密算法的时候,都是先输入一个简单的语句然后分析加密后语句的规律,这里先输入一个简单的打印log: 代码拷出来格式化一下: 这个时候规律已经挺明显了,不急先 阅读全文
posted @ 2018-06-23 13:58 CC11001100 阅读(5621) 评论(5) 推荐(3)
摘要:在CSDN上看到有人提问一段JS怎么解密,虽然已经是四年前的问题了,还是解一下。 原问题地址: 这段JS怎样解密? [问题点数:40分,结帖人seo2014] 这是楼主发出的原JS:/*ZlQEInL6A*/var/*jY10R0zzRU8*/GmjGBvOJh/*giquCfF2*/=/*kACnJn3eX*/\u0075\u006e\u0065\u0073\u0063\u0061\u0... 阅读全文
posted @ 2018-06-19 23:51 CC11001100 阅读(1178) 评论(1) 推荐(0)
摘要:一、为什么需要邮箱混淆 先来解释一下什么是邮箱混淆,邮箱混淆就是对页面上的邮箱进行处理,使用JS加密、HTML隐藏元素干扰、图片显示等方式增加爬虫获取的难度。很多人都有过这种体验,当在网络上留下自己的邮箱之后,过不了多久这个邮箱就会收到一堆乱七八糟的垃圾邮件,都是一些广告、诈骗信息等。这是因为每时每刻都有爬虫在扫描互联网上的邮箱对其推送垃圾信息,应对这种情况,一般会有两种应对策略,一种就是尽量... 阅读全文
posted @ 2018-06-17 23:20 CC11001100 阅读(1343) 评论(1) 推荐(0)
摘要:Linux中有一个管道的概念,常用来流式的处理文本内容,比如一个文件对其中的每一行应用好几个操作,出于两个方面的考虑可能需要在管道中使用用户定义函数: 1. 刚需: 内置的sed/awk之类的可能没法满足我们的需求,只能使用用户定义函数 2. 代码质量: 如果是流式操作很多很长,那么可能就需要将其进 阅读全文
posted @ 2018-04-30 21:55 CC11001100 阅读(2374) 评论(1) 推荐(0)
摘要:奇怪的赞数 人生在世,不如意事十之八九,可与言者无二三人。幸好我们生在互联网时代,现实中找不到可以倾诉的人还可以在网络上寻找情绪宣泄口,树洞这类产品就是提供一个让人在网络上匿名倾诉的平台。 我是偶然间发现了这个平台:http://www.6our.com/,感觉自己比较惨的时候去看看别人的不如意,发现上帝还是蛮眷顾自己的(也不知道中国在不在他老人家的管辖范围内)。不过我发现了一个奇怪的现象... 阅读全文
posted @ 2018-04-30 16:38 CC11001100 阅读(2085) 评论(1) 推荐(3)
摘要:概述 之前在知乎上看到有人分享的一个有趣的反爬策略: 那个变态混淆页面源码是这个样子的,正文内容穿插在混淆元素中: 看到这么变态的页面结构很感兴趣于是就尝试解析了一下。 知乎分享地址:有哪些有趣的反爬虫手段? - 阿阿聪的回答 - 知乎 微信变态混淆页面地址:过年同学聚会,到底该不该去? 分析 & 实现 对于这种一般都是在选择器中过滤掉不可见的元素就可以了,对于不可见元素目前遇到过... 阅读全文
posted @ 2018-04-10 00:31 CC11001100 阅读(971) 评论(0) 推荐(0)
摘要:分析 新蛋详情页的价格字段是用图片显示的,虽然其它电商都已经认识到这是没什么卵用还浪费资源的行为但貌似新蛋不这样认为,所以尝试爬取一下。 价格字段大概是这个样子: 这个图片也是很纯净的能够识别率百分百的。 代码实现 还是上之前写的一个小小工具库:https://github.com/CC11001100/commons-simple-character-ocr 首先需要抓取一些图片来生... 阅读全文
posted @ 2018-03-26 03:28 CC11001100 阅读(875) 评论(0) 推荐(0)
摘要:分析 蚂蚁代理的列表页大致是这样的: 端口字段使用了图片显示,并且在图片上还有各种干扰线,保存一个图片到本地用画图打开观察一下: 仔细观察蓝色的线其实是在黑色的数字下面的,其它的干扰线也是,所以这幅图是先绘制的干扰线又绘制的端口数字,于是就悲剧了,干扰线形同虚设,所以还是有办法识别的。 然后就是ip字段,看了下ip字段很老实没啥猫腻。 注意到这个列表有一个按端口号筛选的功能,很兴奋... 阅读全文
posted @ 2018-03-26 01:29 CC11001100 阅读(2277) 评论(0) 推荐(0)
摘要:分析 打开页面http://www.coobobo.com/free-http-proxy/,端口数字一看就不对劲,老规律ctrl+shift+c选一下: 这就很悲剧了,端口数字都是用图片显示的: 不过没关系,看这些图片长得这么清秀纯天然无杂质,识别是很容易的。 然后再来选一下ip地址: 很可能ip地址是用这个js现写进来的,要确定的话还得看一眼返回的原始html,查看源码定位这... 阅读全文
posted @ 2018-03-25 22:54 CC11001100 阅读(929) 评论(0) 推荐(0)
摘要:简述 本次要爬取的网站是全网代理,貌似还是代理ip类网站中比较有名的几个之一,其官网地址: http://www.goubanjia.com/。 对于这个网站的爬取是属于比较悲剧的,因为很久之前就写好了代码了只是没写博客总结,结果刚才看的时候发现人家改版了…之前的代码基本不能用了只好重新写… 原来是一个列表页有很多项可以看到的,现在改版成只看前20条了,貌似只有不断的检测抓取不然这东西鸡肋没啥... 阅读全文
posted @ 2018-03-25 21:32 CC11001100 阅读(3805) 评论(0) 推荐(0)
摘要:起因 为了训练爬虫技能(其实主要还是js技能…),翻了可能有反爬的网站挨个摧残,现在轮到这个网站了:http://www.data5u.com/free/index.shtml 解密过程 打开网站,在免费ip的列表页查看元素选一个端口,发现表示端口的元素class属性上有可疑的东西(代理ip类网站的反爬总是这么没有创意…): 上面的“GEA”很像是密文存储的东西,怀疑端口号是页面加载... 阅读全文
posted @ 2018-03-25 19:12 CC11001100 阅读(13986) 评论(0) 推荐(3)
摘要:起因 之前挖过爬取免费代理ip的坑,一个比较帅的同事热心发我有免费代理ip的网站,遂研究了下:https://proxy.coderbusy.com/。 解密 因为之前爬过类似的网站有了些经验,大概知道这些家伙都是啥套路于是就随手ctrl+shift+c选了一下端口号: 端口元素有个奇怪的data字段,怀疑是在这个数字8781的基础上生成的8080,查看源代码看看返回的是什么样的: ... 阅读全文
posted @ 2018-03-20 00:15 CC11001100 阅读(1496) 评论(5) 推荐(0)
摘要:起因: 在研究爬虫的时候发现很多网站都出现了同一种方式的js混淆,并且名字都是pde.js,怀疑是使用了同一款混淆工具,所以研究一下。 这款工具叫JS Packer,并不是专门的混淆工具,而是一款js压缩工具,其官网地址为: http://dean.edwards.name/packer/ 支持两种 阅读全文
posted @ 2018-02-25 02:23 CC11001100 阅读(3191) 评论(0) 推荐(1)
摘要:起因: 最近在练习解析验证码,看到了这个网站的验证码比较简单,于是就拿来解析一下攒攒经验值,并无任何冒犯之意... 验证码所在网页: https://www.w3cschool.cn/checkmphone?type=findpwd 验证码地址: https://www.w3cschool.cn/scode 1. 分析规律 打开这个页面: https://www.w3cschool.cn/... 阅读全文
posted @ 2018-01-27 02:21 CC11001100 阅读(1861) 评论(0) 推荐(0)