序章
网络爬虫
一、什么是网络爬虫
爬虫就是一段程序:
- 爬虫,模拟浏览器,向服务器发送请求
- 服务器响应后,爬虫把爬到的链接解析出来,放到url队列中
二、爬虫运用的场景
- 搜索引擎的页面抓取。
- 抓取页面中数据。
- 大数据学习时的原始数据。
三、爬虫数据分析
- 页面抓取
可以使用HttpClient工具 - 页面解析
Jsoup,解析html。可以想使用jquery一样解析页面
四、HttpComponents
- 他是apache的一个开源项目
- HttpComponents = HttpCore + HttpClient;
- 以前HttpComponents就叫HttpClient后来把他拆分拆分成了 HttpCore 和 HttpClient;
3.2HttpCore封装了Http服务(实现了一套HTTP 协议的基础组件,为构建客户端/代理/服务器端 HTTP 服务一致的 API),运用它很容易实现Http服务。若你需要做一个对外提供Http服务可以使用它
3.3 HttpClient是之前常用的那个:Commons HttpClient 3.x的继承者
之前的HttpClient 3.x,现已废弃。
2021/5/27

浙公网安备 33010602011771号