序章

网络爬虫

一、什么是网络爬虫

爬虫就是一段程序:

爬虫，模拟浏览器，向服务器发送请求
服务器响应后，爬虫把爬到的链接解析出来，放到url队列中

二、爬虫运用的场景

搜索引擎的页面抓取。
抓取页面中数据。
大数据学习时的原始数据。

三、爬虫数据分析

页面抓取
可以使用HttpClient工具
页面解析
Jsoup，解析html。可以想使用jquery一样解析页面

四、HttpComponents

他是apache的一个开源项目
HttpComponents = HttpCore + HttpClient；
以前HttpComponents就叫HttpClient后来把他拆分拆分成了 HttpCore 和 HttpClient；
3.2HttpCore封装了Http服务（实现了一套HTTP 协议的基础组件，为构建客户端/代理/服务器端 HTTP 服务一致的 API），运用它很容易实现Http服务。若你需要做一个对外提供Http服务可以使用它
3.3 HttpClient是之前常用的那个：Commons HttpClient 3.x的继承者
之前的HttpClient 3.x，现已废弃。

2021/5/27

posted @ 2021-05-27 22:34 loveYuJie 阅读(211) 评论(0) 收藏举报

刷新页面返回顶部