序章

网络爬虫

一、什么是网络爬虫

爬虫就是一段程序:

  1. 爬虫,模拟浏览器,向服务器发送请求
  2. 服务器响应后,爬虫把爬到的链接解析出来,放到url队列中

二、爬虫运用的场景

  1. 搜索引擎的页面抓取。
  2. 抓取页面中数据。
  3. 大数据学习时的原始数据。

三、爬虫数据分析

  1. 页面抓取
    可以使用HttpClient工具
  2. 页面解析
    Jsoup,解析html。可以想使用jquery一样解析页面

四、HttpComponents

  1. 他是apache的一个开源项目
  2. HttpComponents = HttpCore + HttpClient;
  3. 以前HttpComponents就叫HttpClient后来把他拆分拆分成了 HttpCore 和 HttpClient;
    3.2HttpCore封装了Http服务(实现了一套HTTP 协议的基础组件,为构建客户端/代理/服务器端 HTTP 服务一致的 API),运用它很容易实现Http服务。若你需要做一个对外提供Http服务可以使用它
    3.3 HttpClient是之前常用的那个:Commons HttpClient 3.x的继承者
    之前的HttpClient 3.x,现已废弃。

2021/5/27

posted @ 2021-05-27 22:34  loveYuJie  阅读(211)  评论(0)    收藏  举报