爬虫基础

 

1. 基础内容

  1. 什么是http协议:客户端与服务端进行交互的方式

  2.爬虫中常用头信息:Accept、Referer等

  3.https中涉及的三种加密方式:对称密钥、非对称密钥、证书

  4.requests模块的作用及编码流程:模拟浏览器访问请求,四步:指定url、发送请求、获取响应数据、数据化存储

  5.requests如何进行参数封装,为什么要进行参数封装

  6.简述目前接触到的反爬机制及其反反爬策略

  7.什么是动态加载数据

 2. 进阶

  1.爬虫的分类:通用爬虫、聚焦爬虫、增量式爬虫

  2.爬取图片的两种方式:

    2.1requests模块结合文件操作来完成

    2.2使用urllib模块的request.urlretrieve()

  3.数据解析的基本原理:获取标签里面的文本和属性等相关数据

  4.xpath解析原理:

    4.1实例化一个etree对象,把页面源码加载到该对象中

    4.2使用对象中的xpath方法结合着xpath表达式进行数据的解析和文本属性提取

  5.etree对象实例化的方式:

    本地文件tree = etree.parse()

    网络文件tree = etree.HTML()

  6.bs4解析原理:

    6.1实例化一个BeautifulSoup对象,把页面源码加载到该对象中

    6.2使用对象中的属性和方法进行数据的解析和文本属性提取

  7.Beautiful对象实例化方式:

    7.1本地文件soup = BeautifulSoup(文件句柄, "lxml")

    7.2网络文件soup = BeautifulSoup(page_text, "lxml")

  8.面试题:如何爬取携带标签的指定页面内容:bs4返回标签,xpath返回的是对象

  9.HTTPConnectionPool (host:XX) Max retries exceeded with url报错解决

    过于频繁会被判定为异常,所以每次connection完断开一次

  10.处理中文乱码

posted @ 2019-07-02 09:09  pythonernoob  阅读(91)  评论(0)    收藏  举报