爬虫基础

常用的爬虫模块

1、requests 模块

2、urllib 模块

常见的反扒机制

1、rebots.txt

2、UA

3、访问频次限制（封IP）

4、url 数据加密

5、动态数据加载

6、验证码

7、隐藏的动态token

常用的数据解析方式

当我们使用爬虫模块获取页面内容后如何获取我们需要的数据呢？

1、正则表达式

2、xpath解析

3、beautiful soup

如何爬取动态加载的页面数据？比如懒加载图片？

selenium + 无头浏览器（phantomjs、chrome）

　　

posted @ 2018-11-02 16:17 eailoo 阅读(80) 评论(0) 收藏举报

刷新页面返回顶部