爬虫基础

常用的爬虫模块

1、requests 模块

2、urllib 模块

常见的反扒机制

1、rebots.txt

2、UA

3、访问频次限制(封IP)

4、url 数据加密

5、动态数据加载

6、验证码

7、隐藏的动态token

常用的数据解析方式

当我们使用爬虫模块获取页面内容后如何获取我们需要的数据呢?

1、正则表达式

2、xpath解析

3、beautiful soup

如何爬取动态加载的页面数据?比如懒加载图片?

        selenium + 无头浏览器(phantomjs、chrome)

 

  

 

posted @ 2018-11-02 16:17  eailoo  阅读(76)  评论(0)    收藏  举报