Java爬虫技术之HttpClient学习笔记

第一节、HttpClient

一、HttpClient 简介

超文本传输协议【The Hyper-Text Transfer Protocol (HTTP)】是当今互联网上使用的最重要（significant）的协议，

越来越多的 Java 应用程序需要直接通过 HTTP 协议来访问网络资源。

虽然在 JDK 的 java net包中已经提供了访问 HTTP 协议的基本功能，但是对于大部分应用程序来说，JDK 库本身提供的功能还不够丰富和灵活。

HttpClient 是 Apache Jakarta Common 下的子项目，用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。

官方站点：http://hc.apache.org/

最新版本：http://hc.apache.org/httpcomponents-client-4.5.x/

官方文档：http://hc.apache.org/httpcomponents-client-4.5.x/tutorial/html/index.html

二、Maven依赖包

<groupId>org.apache.httpcomponents</groupId>

<artifactId>httpclient</artifactId>

</dependency>

三、HttpClient的 HelloWorld 实现

package com.guo.httpclient;
import java.io.IOException;
import org.apache.http.HttpEntity;
import org.apache.http.ParseException;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
public class HelloWorld {
    public static void main(String args[]){
        // 创建httpClient实例
        CloseableHttpClient httpClient=HttpClients.createDefault();
        //创建httpGet实例
        HttpGet httpGet=new HttpGet("https://www.cnblogs.com/");
        CloseableHttpResponse response=null; //定义个返回信息
        try {
             response=httpClient.execute(httpGet);
        } catch (ClientProtocolException e) {//http协议异常
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (IOException e) { //io异常
            // TODO Auto-generated catch block
            e.printStackTrace();
        }//执行http get请求
        // 获取返回信息 实体
        HttpEntity entity=response.getEntity();
        
        try {
            System.out.println("获取网页内容"+EntityUtils.toString(entity, "utf-8"));//获取网页内容
        } catch (ParseException e) { //解析异常
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        
        try {
            response.close();
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        
        try {
            httpClient.close();
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        
    }
}