爬虫基础
常用的爬虫模块
1、requests 模块
2、urllib 模块
常见的反扒机制
1、rebots.txt
2、UA
3、访问频次限制(封IP)
4、url 数据加密
5、动态数据加载
6、验证码
7、隐藏的动态token
常用的数据解析方式
当我们使用爬虫模块获取页面内容后如何获取我们需要的数据呢?
1、正则表达式
2、xpath解析
3、beautiful soup
如何爬取动态加载的页面数据?比如懒加载图片?
selenium + 无头浏览器(phantomjs、chrome)

浙公网安备 33010602011771号