爬虫常用库介绍
1. Superagent
Superagent是个轻量的的http方面的库,是nodejs里一个非常方便的客户端请求代理模块,当我们需要进行get、post、head等网络请求时,尝试下它吧。
2. Cheerio
Cheerio大家可以理解成一个 Node.js 版的 jquery,用来从网页中以 css selector 取数据,使用方式跟 jquery 一模一样。
3. Async
Async是一个流程控制工具包,提供了直接而强大的异步功能mapLimit(arr, limit, iterator, callback),我们主要用到这个方法,大家可以去看看官网的API。
4.request
是一个用来简化 HTTP 请求操作的模块,其功能强大而且使用方法简单
5.htmlparser2
是一个快速和宽容的HTML/XML/RSS
解析器,解析器可以出来流,并且提供了一个回调接口。