关于爬虫

技术选型

scrapy VS requests+beautifulsoup

1.　requests+beautifulsoup都是库，而scrapy是框架

2.　scrapy框架中可以加入requests+beautifulsoup

3.　scrapy框架是基于twisted（异步IO框架）的，性能是最大优势

4.　scrapy方便扩展，提供了很多内置的功能

5.　scrapy内置的css和xpath selector非常方便，beautifulsoup最大的缺点就是慢

1.　静态网页

2.　动态网页

3.　webservice(rest api)

1.　搜索引擎：Googel、百度、垂直领域搜索引擎

2.　推荐引擎：今日头条

3.　机器学习的数据样本

4.　数据分析（如金融数据分析）、舆情分析等

posted @ 2018-10-31 16:35 扎心了，老铁阅读(951) 评论(0) 收藏举报

刷新页面返回顶部