1. 基础内容
1. 什么是http协议:客户端与服务端进行交互的方式
2.爬虫中常用头信息:Accept、Referer等
3.https中涉及的三种加密方式:对称密钥、非对称密钥、证书
4.requests模块的作用及编码流程:模拟浏览器访问请求,四步:指定url、发送请求、获取响应数据、数据化存储
5.requests如何进行参数封装,为什么要进行参数封装
6.简述目前接触到的反爬机制及其反反爬策略
7.什么是动态加载数据
2. 进阶
1.爬虫的分类:通用爬虫、聚焦爬虫、增量式爬虫
2.爬取图片的两种方式:
2.1requests模块结合文件操作来完成
2.2使用urllib模块的request.urlretrieve()
3.数据解析的基本原理:获取标签里面的文本和属性等相关数据
4.xpath解析原理:
4.1实例化一个etree对象,把页面源码加载到该对象中
4.2使用对象中的xpath方法结合着xpath表达式进行数据的解析和文本属性提取
5.etree对象实例化的方式:
本地文件tree = etree.parse()
网络文件tree = etree.HTML()
6.bs4解析原理:
6.1实例化一个BeautifulSoup对象,把页面源码加载到该对象中
6.2使用对象中的属性和方法进行数据的解析和文本属性提取
7.Beautiful对象实例化方式:
7.1本地文件soup = BeautifulSoup(文件句柄, "lxml")
7.2网络文件soup = BeautifulSoup(page_text, "lxml")
8.面试题:如何爬取携带标签的指定页面内容:bs4返回标签,xpath返回的是对象
9.HTTPConnectionPool (host:XX) Max retries exceeded with url报错解决
过于频繁会被判定为异常,所以每次connection完断开一次
10.处理中文乱码
posted @
2019-07-02 09:09
pythonernoob
阅读(
91)
评论()
收藏
举报