爬虫工程师就业技能及大纲

前言

  此篇随笔为大纲及概述,后续会更新详细内容及案例内容。

  大纲以及后续更新的内容来自本人从B站博主 路飞学城  发布的课程学来的知识加以自己的理解,案例内容为自己提的各方面需求。

职业规划  

  以稳固的web端爬虫入手,逐步渗透app端爬虫,当全部成熟后,攻坚数据可视化和数据分析。完成一套技术流程,提升自身价值。

大纲 

  python基础语法

   requests模块,session请求(请求时携带动态变化的cookie)

   xpath解析(推荐),bs4解析,正则表达式

  selenium模块、动作链、iframe标签的注意

  selenium操控的无头浏览器及规避对selenium的检测

   验证码的处理:云打码平台(普通验证码,数字字母之类)

          超级鹰(更难得验证码,比如给出文字“老虎”,验证码要求点击图中所有老虎)

          OCR技术(使用tesserocr库,可以识别难度低的,比如下图,一般使用此方法时需要处理处理图片,比如灰度化,二值化)

          

          机器学习训练模型分析出验证码

          卷积神经网络训练模型分析出验证码(比机器学习准确度更高)

          selenium解决滑动式验证码,具体方法是比较验证码图片缺失位置像素差值,然后获取位置啊大小啊之类,截图,加速,减速等行为。

          暴力枚举解决宫格式验证码(比如各个手机银行进入时的宫格手势密码)

  代理ip池的维护

  多线程/多进程 异步爬虫

  协程爬虫

  scrapy框架

  分布式爬虫(基于scrapy-redis)

  增量式爬虫(利用redis数据库的set去重)

  数据库:

      Mysql

      Mongodb

      Redis

  JS逆向破解参数加密

  JS混淆

  app端的爬虫(尚未学习)

案例

  全本小说网玄幻魔法人气排行下载

  百度图片的李连杰图片前10页

  qq音乐热门歌曲前两页下载

  美团的浦东商家详情页信息

  58同城的简历自动投递

  安居客房源信息的采集

  淘宝iphone11手机价格的采集及实时更新

  boss直聘中上海互联网行业各职位薪资待遇和职位要求

  雪球网沪深股市沪深一览增量式爬取(内容在变化)

  神州租车价格和数量 增量式爬取

  信托类网站项目类型和规模的爬取

  格力空调官网 格力发布 新闻的爬取

  中国空气质量在线监测平台的爬取(涉及JS加密)https://www.aqistudy.cn

  衡水市人民政府公示公告的爬取

    

 

posted @ 2020-10-08 21:52  淇则有岸  阅读(411)  评论(0编辑  收藏  举报