爬虫基础

1. 基础内容

　　1. 什么是http协议：客户端与服务端进行交互的方式

　　2.爬虫中常用头信息：Accept、Referer等

　　3.https中涉及的三种加密方式：对称密钥、非对称密钥、证书

　　4.requests模块的作用及编码流程：模拟浏览器访问请求，四步：指定url、发送请求、获取响应数据、数据化存储

　　5.requests如何进行参数封装，为什么要进行参数封装

　　6.简述目前接触到的反爬机制及其反反爬策略

　　7.什么是动态加载数据

2. 进阶

　　1.爬虫的分类：通用爬虫、聚焦爬虫、增量式爬虫

　　2.爬取图片的两种方式：

　　　　2.1requests模块结合文件操作来完成

　　　　2.2使用urllib模块的request.urlretrieve()

　　3.数据解析的基本原理：获取标签里面的文本和属性等相关数据

　　4.xpath解析原理：

　　　　4.1实例化一个etree对象，把页面源码加载到该对象中

　　　　4.2使用对象中的xpath方法结合着xpath表达式进行数据的解析和文本属性提取

　　5.etree对象实例化的方式：

　　　　本地文件tree = etree.parse()

　　　　网络文件tree = etree.HTML()

　　6.bs4解析原理：

　　　　6.1实例化一个BeautifulSoup对象，把页面源码加载到该对象中

　　　　6.2使用对象中的属性和方法进行数据的解析和文本属性提取

　　7.Beautiful对象实例化方式：

　　　　7.1本地文件soup = BeautifulSoup(文件句柄, "lxml")

　　　　7.2网络文件soup = BeautifulSoup(page_text, "lxml")

　　8.面试题：如何爬取携带标签的指定页面内容：bs4返回标签，xpath返回的是对象

　　9.HTTPConnectionPool (host:XX) Max retries exceeded with url报错解决

　　　　过于频繁会被判定为异常，所以每次connection完断开一次

　　10.处理中文乱码

posted @ 2019-07-02 09:09 pythonernoob 阅读(91) 评论(0) 收藏举报

刷新页面返回顶部

pythonernoob

爬虫基础

1. 基础内容

1. 什么是http协议：客户端与服务端进行交互的方式

2.爬虫中常用头信息：Accept、Referer等

3.https中涉及的三种加密方式：对称密钥、非对称密钥、证书

4.requests模块的作用及编码流程：模拟浏览器访问请求，四步：指定url、发送请求、获取响应数据、数据化存储

5.requests如何进行参数封装，为什么要进行参数封装

6.简述目前接触到的反爬机制及其反反爬策略

7.什么是动态加载数据

2. 进阶

1.爬虫的分类：通用爬虫、聚焦爬虫、增量式爬虫

2.爬取图片的两种方式：

2.1requests模块结合文件操作来完成

2.2使用urllib模块的request.urlretrieve()

3.数据解析的基本原理：获取标签里面的文本和属性等相关数据

4.xpath解析原理：

4.1实例化一个etree对象，把页面源码加载到该对象中

4.2使用对象中的xpath方法结合着xpath表达式进行数据的解析和文本属性提取

5.etree对象实例化的方式：

本地文件tree = etree.parse()

网络文件tree = etree.HTML()

6.bs4解析原理：

6.1实例化一个BeautifulSoup对象，把页面源码加载到该对象中

6.2使用对象中的属性和方法进行数据的解析和文本属性提取

7.Beautiful对象实例化方式：

7.1本地文件soup = BeautifulSoup(文件句柄, "lxml")

7.2网络文件soup = BeautifulSoup(page_text, "lxml")

8.面试题：如何爬取携带标签的指定页面内容：bs4返回标签，xpath返回的是对象

9.HTTPConnectionPool (host:XX) Max retries exceeded with url报错解决

过于频繁会被判定为异常，所以每次connection完断开一次

10.处理中文乱码

公告

　　1. 什么是http协议：客户端与服务端进行交互的方式

　　2.爬虫中常用头信息：Accept、Referer等

　　3.https中涉及的三种加密方式：对称密钥、非对称密钥、证书

　　4.requests模块的作用及编码流程：模拟浏览器访问请求，四步：指定url、发送请求、获取响应数据、数据化存储

　　5.requests如何进行参数封装，为什么要进行参数封装

　　6.简述目前接触到的反爬机制及其反反爬策略

　　7.什么是动态加载数据

　　1.爬虫的分类：通用爬虫、聚焦爬虫、增量式爬虫

　　2.爬取图片的两种方式：

　　　　2.1requests模块结合文件操作来完成

　　　　2.2使用urllib模块的request.urlretrieve()

　　3.数据解析的基本原理：获取标签里面的文本和属性等相关数据

　　4.xpath解析原理：

　　　　4.1实例化一个etree对象，把页面源码加载到该对象中

　　　　4.2使用对象中的xpath方法结合着xpath表达式进行数据的解析和文本属性提取

　　5.etree对象实例化的方式：

　　　　本地文件tree = etree.parse()

　　　　网络文件tree = etree.HTML()

　　6.bs4解析原理：

　　　　6.1实例化一个BeautifulSoup对象，把页面源码加载到该对象中

　　　　6.2使用对象中的属性和方法进行数据的解析和文本属性提取

　　7.Beautiful对象实例化方式：

　　　　7.1本地文件soup = BeautifulSoup(文件句柄, "lxml")

　　　　7.2网络文件soup = BeautifulSoup(page_text, "lxml")

　　8.面试题：如何爬取携带标签的指定页面内容：bs4返回标签，xpath返回的是对象

　　9.HTTPConnectionPool (host:XX) Max retries exceeded with url报错解决

　　　　过于频繁会被判定为异常，所以每次connection完断开一次

　　10.处理中文乱码