爬虫 第二篇 纵观

继上篇文章采集图片后,有朋友问采集就这么简单吗?

当然No No No!!!!

获取数据的渠道多种多样,根据需求,可以从小程序、PC、h5、app、官方接口等等获取数据。当然 你从别人的地方获取数据,别人哪儿能那么轻易的让你获取到数据呢!所以就出现了各种反爬!我简单总结了几种......

  1. 对UA的检测,切换UA可以避免检测;

  2. 对IP的检测,所以就会出现市面上的代理IP。免费的不用说,很low。收费的代理质量也是良莠不齐;

  3. 对请求过程中数据的加密,常见的加密方式有MD5,RSA,DES,SHA....

    (1)PC,h5 端的js加密,大多都会通过混淆映射然后加密。
    (2)APP端的加密java层的很少,基本上都是在so加密,这样破解的难度大大增高

  4. cookie检测,例如账户检测,指纹等一些用户信息或者本地浏览器的一些信息

  5. 滑块,有的人通过js直接硬刚,但是不建议这么做,为什么呢?花费时间比较多,服务端稍加变化就得从新破解。这里采用自动化的工具。滑块的方式有很多。会加上机器学习+自动化工具 轻松过掉滑块。也要避免检测自动化工具

好了!! 简单聊下反爬,还得在实际的项目上见真章!

七五七五二四八二九 欢迎QQ讨论!

posted @ 2024-04-25 12:09  低头不见抬头见  阅读(27)  评论(0)    收藏  举报