js-15:js逆向总结
###
总结
###
###
第一个,案例,比赛第4题,
他的每一个数字都是一个图片,所以你需要把图片都识别出来,
另外就是这个图片做了偏移,我们要还原出来,
---
怎么还原?
前面宽度之和+偏移量,
偏移量又是什么?
有left和right,还有正负,
我们要首先知道每一个字体的宽度是多少,然后就是前面宽度之和+偏移量,就是
第一个数字的,前面宽度之和肯定是0,因为前面没有数字,
第四个,动态字体反爬,这个需要使用KNN算法,
比赛题目第七题,就是这个
往上有现成的knn算法的实现,
到时候还是需要学一学,
静态css反爬,利用字体
反爬原理:
1、主要利用font-family属性,例如设置为my-font
2、在HTML里面不常见(不可读)的unicode
3、在CSS字体(my-font)中将其映射到常见(可读)到字体,例如数字
4、爬虫在抓取数据的时候只能抓到unicode,而不是真实的数据
应对措施
1、下载woff字体文件,转化为tff文件
2、用百度字体编辑器打开tff文件,并确定其unicode与其实际的映射关系
3、将下载的HTML内容按照映射关系替换
4、解析HTML并获取正确的数据
难点:
有些网站会动态生成woff,这种反爬措施比较难以自动化绕开
练习题,第12题,
雪碧图反爬
https://gz.ziroom.com/z/,自如租房的价格就是时候的雪碧图反爬,
目前已知的几个字体反爬的网站是猫眼,汽车之家,天眼查,起点中文网等等。
###
这个是一个新型的反爬手段,
###
###
###
###
###
####
####
###
######
技术改变命运