2019 年 3月 14 日随笔档案 - 孔雀东南飞

2019年3月14日

摘要： Beautiful Soup 用法： (1) 前面我们爬取一个网页，都是使用正则表达式来提取想要的信息，但是这种方式比较复杂，一旦有一个地方写错，就匹配不出来了，因此我们可以使用 Beautiful Soup 来进行提取(2) Beautiful Soup 就是 Python 的一个 HTML 或阅读全文

posted @ 2019-03-14 18:30 孔雀东南飞阅读(205) 评论(0) 推荐(0)

使用 requests 进行身份认证

摘要：如下图，有些网站需要使用用户名密码才可以登录，我们可以使用 requests 的 auth 参数来实现阅读全文

posted @ 2019-03-14 16:38 孔雀东南飞阅读(346) 评论(0) 推荐(0)

使用 requests 配置代理服务

摘要： (1) 如果我们一直用同一个IP去请求同一个网站上的网页，久了之后可能会被该网站服务器屏蔽，因此我们可以使用代理IP来发起请求，代理实际上指的就是代理服务器(2) 当我们使用代理IP发起请求时，服务器端显示的是代理IP的地址，即使被屏蔽了，我们可以换一个代理IP继续爬取，代理IP获取页面：https 阅读全文

posted @ 2019-03-14 16:37 孔雀东南飞阅读(864) 评论(0) 推荐(0)

使用 requests 访问 HTTPS

摘要：当我们访问 HTTPS 的网站时，需要进行证书验证，在浏览器中可以自动处理验证问题，在 Python 中有以下两种做法：阅读全文

posted @ 2019-03-14 16:36 孔雀东南飞阅读(3015) 评论(0) 推荐(0)

使用 requests 维持会话

摘要：什么是 Cookie 和 Session：简单来说，我们访问每一个互联网页面，都是通过 HTTP 协议进行的，而 HTTP 协议是一个无状态协议，所谓的无状态协议即无法维持会话之间的状态。比如，仅使用 HTTP 协议的话，我们登录一个网站的时候，假如登录成功了，但是当我们访问该网站的其他网页的时候阅读全文

posted @ 2019-03-14 16:35 孔雀东南飞阅读(652) 评论(0) 推荐(0)

使用 requests 发送 POST 请求

摘要： POST请求也就是向服务器提交数据，通常我们用来提交表单数据：阅读全文

posted @ 2019-03-14 16:33 孔雀东南飞阅读(309) 评论(0) 推荐(0)

使用 requests 发送 GET 请求

摘要：基本用法：发起带有参数的GET请求：伪造请求头信息，发起GET请求：阅读全文

posted @ 2019-03-14 16:32 孔雀东南飞阅读(4095) 评论(0) 推荐(0)

requests 安装

摘要： requests 是用来发送 HTTP 请求的一个库，requests 是对 urllib 和 urllib2 进行封装的一个模块，用来取代 urllib 和 urllib2，可以使用以下两种方法安装 requests 阅读全文

posted @ 2019-03-14 16:28 孔雀东南飞阅读(223) 评论(0) 推荐(0)

使用 urllib 分析 Robots 协议

摘要： (1) Robots Exclusion Protocol，网络爬虫排除标准，也称爬虫协议、机器人协议，用来告诉爬虫和搜索引擎哪些页面可以抓取，哪些不可以抓取(2) Robots 协议以 robots.txt 文件的形式表示，一般放在网站的根目录下，爬虫和搜索引擎要根据文件的内容范围来爬取，如果文件阅读全文

posted @ 2019-03-14 16:25 孔雀东南飞阅读(307) 评论(0) 推荐(0)

使用 urllib 解析 URL 链接

摘要： urllib 库还提供了 parse 模块，它定义了处理 URL 的标准接口，例如实现 URL 各部分的抽取、合并以及链接转换，常用的方法如下：阅读全文

posted @ 2019-03-14 16:23 孔雀东南飞阅读(725) 评论(0) 推荐(0)

使用 urllib 处理 HTTP 异常

摘要： (1) 我们发起 HTTP 请求，有时会发生异常，如请求超时，登录密码错误，请求链接不存在等等，使用 urllib.request.URLError 可以捕获这些与 URL 相关的异常(2) urllib.error.URLError 是一个异常类，如果我们使用 urlopen() 打开一个URL，阅读全文

posted @ 2019-03-14 16:22 孔雀东南飞阅读(388) 评论(0) 推荐(0)

使用 urllib 处理 Cookies 信息

摘要：如何获取 Cookies ：如何携带 Cookie 信息登录到其他页面：阅读全文

posted @ 2019-03-14 16:21 孔雀东南飞阅读(598) 评论(0) 推荐(0)

使用 urllib 设置代理服务

posted @ 2019-03-14 16:20 孔雀东南飞阅读(792) 评论(0) 推荐(0)

使用 urllib 进行身份验证

摘要：如下图，有些网站需要使用用户名密码才可以登录，我们可以使用 HTTPBasicAuthHandler() 来实现阅读全文

posted @ 2019-03-14 16:19 孔雀东南飞阅读(879) 评论(0) 推荐(0)

关于 Handler 与 opener

摘要：我们可以使用 urllib.request.Request() 构造请求对象，但是对于一些更高级的操作，比如 Cookies 处理、代理设置、身份验证等等，Request() 是处理不了的这时就需要更强大的工具 —— Handler，我们可以把它理解为各种处理器，有处理登录验证的，有处理 Cook 阅读全文

posted @ 2019-03-14 16:15 孔雀东南飞阅读(363) 评论(0) 推荐(0)

使用 urllib 构造请求对象

摘要： (1) urllib.request.urlopen()方法可以实现最基本请求的发起，但这几个简单的参数并不足以构建一个完整的请求(2) 我们可以使用 urllib.request.Request() 先构造一个请求对象，这个请求对象可以包含请求头信息，或者包含要向服务器传递的数据，然后再发送请求( 阅读全文

posted @ 2019-03-14 16:14 孔雀东南飞阅读(491) 评论(0) 推荐(0)

使用 urllib 发送请求

摘要： urllib.request.urlopen(url, data=None, timeout=n) 用于发送HTTP请求并得到响应内容 data 参数： (1) 该参数是可选的，如果要添加，则必须通过 urllib.parse.urlencode() 转换成字节流编码格式(2) 另外，如果传递了这个阅读全文

posted @ 2019-03-14 16:13 孔雀东南飞阅读(386) 评论(0) 推荐(0)

urllib 基础模块

摘要： (1) urllib.request：最基本的HTTP请求模块，用来模拟发送请求，就像在浏览器里输入网址然后回车一样(2) urllib.error：异常处理模块，如果出现请求错误，我们可以捕获这些异常，然后进行重试或其他操作以保证程序不会意外终止(3) urllib.parse：一个工具模块，提供阅读全文

posted @ 2019-03-14 16:11 孔雀东南飞阅读(149) 评论(0) 推荐(0)

urllib 简介

摘要： (1) urllib 是 Python 内置的 HTTP 请求库，用来向服务器发送 HTTP 请求(2) 在 Python2.x 中，有 urllib 和 urllib2 两个模块；在 Python3.x 中，urllib2 合并到了 urllib 中(3) 在 Python2.x 中使用 impo 阅读全文

posted @ 2019-03-14 16:10 孔雀东南飞阅读(917) 评论(0) 推荐(0)

网络爬虫的分析算法

摘要：爬虫节点爬取到的网页数据会存放到资源库中，资源库对爬取到的数据进行分析并建立索引，分析算法有以下几种 (1) 基于用户行为的分析算法：根据用户对网页的访问频率、访问时长、点击率等对网页数据进行分析(2) 基于网络拓扑的分析算法：根据网页的外链、网页的层次、网页的等级等对网页数据进行分析，计算阅读全文

posted @ 2019-03-14 15:58 孔雀东南飞阅读(1787) 评论(0) 推荐(0)

网络爬虫的更新策略

摘要：一个网站的网页经常会更新，在网页更新之后，作为爬虫方，我们则需要对这些网页进行重新爬取，有以下几种策略进行重新爬取 (1) 用户体验策略：我们从浏览器搜索一个关键字，会出现一个排名结果，我们可以根据排名靠前的网页更新爬虫程序，对其进行爬取，这种更新策略称为用户体验策略(2) 历史数据策略：一般我们不阅读全文

posted @ 2019-03-14 15:57 孔雀东南飞阅读(607) 评论(0) 推荐(0)

网络爬虫的爬行策略

摘要：网络爬虫爬行过程中，会爬到一些新的URL，对这些 URL 爬取的顺序，是由爬行策略来决定的 (1) 深度优先爬行策略：先爬取一个网页，然后将这个网页的下层链接依次爬取完再返回上一层进行爬取，如下图，爬取的顺序是 A → D → E → B → C → F → G(2) 广度优先爬行策略：先爬取同一层阅读全文

posted @ 2019-03-14 15:56 孔雀东南飞阅读(2760) 评论(0) 推荐(0)

网络爬虫的工作流程

摘要： (1) 网络爬虫由控制节点、爬虫节点、资源库组成；以搜索引擎或聚焦网络爬虫为例，先确定好要爬取的主题和要爬取的初始URL(2) 控制节点调用爬虫节点对初始URL进行爬取，爬行过程中，会爬到一些新的URL，会根据主题过滤掉一些URL，然后把剩下的URL根据优先级添加到URL队列等待爬取(3) 爬虫阅读全文

posted @ 2019-03-14 15:55 孔雀东南飞阅读(2191) 评论(0) 推荐(0)

网络爬虫的类型

摘要： (1) 通用网络爬虫：也称全网爬虫，顾名思义，就是爬取的目标是互联网中的所有数据资源，主要应用于大型搜索引擎中(2) 聚焦网络爬虫：也称主题网络爬虫，按照预先定义好的主题有选择地进行网页爬取，爬取特定的资源(3) 增量式网络爬虫：即第二次爬取相同网页时，只爬取内容发生变化的数据，对于没有发生变化的不阅读全文

posted @ 2019-03-14 15:54 孔雀东南飞阅读(918) 评论(0) 推荐(0)

网络爬虫的组成

摘要： (1) 网络爬虫由控制节点、爬虫节点、资源库组成(2) 控制节点，也就是爬虫节点的中央控制器，负责调用爬虫节点进行爬取(3) 爬虫节点会按照相关的算法，对网页进行具体的爬取，爬取后的结果会存储在资源库中阅读全文

posted @ 2019-03-14 15:50 孔雀东南飞阅读(874) 评论(0) 推荐(0)

为什么要学网络爬虫

摘要： (1) 学习网络爬虫，可以私人定制一个搜索引擎，更好地理解数据采集原理(2) 为大数据分析提供更多高质量的数据源，获取更多有价值的信息(3) 可以更深层次地理解搜索引擎爬虫的工作原理，从而可以更好地进行搜索引擎优化(4) 从就业角度来说，爬虫工程师也是紧缺的人才，学习网络爬虫对就业来说非常有利阅读全文

posted @ 2019-03-14 15:49 孔雀东南飞阅读(710) 评论(0) 推荐(0)

什么是网络爬虫

摘要： (1) 网络爬虫又称网络蜘蛛，可以自动化浏览网络中的信息，进行互联网信息的自动检索(2) 搜索引擎会在海量的互联网信息中爬取优质信息并收录，当用户在搜索引擎上检索对应关键词时，会从收录的网页中按照一定的算法或排名规则呈现给用户(3) 大数据也离不开网络爬虫，需要使用网络爬虫去一些比较大型的站点爬取数阅读全文

posted @ 2019-03-14 15:48 孔雀东南飞阅读(1139) 评论(0) 推荐(0)

Windows 下安装 Python3

摘要：可以使用两种方式安装 Python3，一种是直接去官网下载安装包，然后进行安装即可；另一种是通过安装 Anaconda 来安装 Python3， Anaconda 提供了 Python 的科学计算环境，里面自带了 Python 以及常用的库，安装好之后，Python3 的环境就配置好了，推荐用这种方阅读全文

posted @ 2019-03-14 15:43 孔雀东南飞阅读(262) 评论(0) 推荐(0)

Linux 下安装 Python3

摘要：如下，分别安装 Python3 、pip3 、Ipython3：阅读全文

posted @ 2019-03-14 15:41 孔雀东南飞阅读(174) 评论(0) 推荐(0)

HTTP 代理

摘要： HTTP 代理： (1) 如果我们一直用同一个IP去爬取同一个网站上的网页，久了之后可能会被该网站服务器屏蔽，因此我们可以使用代理IP来爬取，代理实际上指的就是代理服务器(2) 当我们使用代理IP爬取时，服务器端显示的是代理IP的地址，即使被屏蔽了，我们可以换一个代理IP继续爬取，代理IP获取页面：阅读全文

posted @ 2019-03-14 14:26 孔雀东南飞阅读(432) 评论(0) 推荐(1)

HTTP Cookies

摘要：简单来说，我们访问每一个互联网页面，都是通过 HTTP 协议进行的，而 HTTP 协议是一个无状态协议，所谓的无状态协议即无法维持会话之间的状态。比如，仅使用 HTTP 协议的话，我们登录一个网站的时候，假如登录成功了，但是当我们访问该网站的其他网页的时候，该登录状态则会消失，此时还需要再登录一次，阅读全文

posted @ 2019-03-14 14:23 孔雀东南飞阅读(120) 评论(0) 推荐(1)

爬虫的基本原理

摘要： (1) 简单来说，爬虫就是获取网页并提取和保存信息的自动化程序(2) 使用 Python 爬取网页 > 使用【正则表达式 | CSS 选择器 | XPath 选择器】提取信息 > 使用数据库保存提取的信息(3) 有时候，我们用 Python 爬取网页得到的源代码和浏览器中看到的不一样，如下，浏览器会阅读全文

posted @ 2019-03-14 14:22 孔雀东南飞阅读(191) 评论(0) 推荐(1)

CSS 选择器

摘要：我们知道网页由一个个节点组成，那么我们可以使用 CSS 选择器来定位节点： (1) 如下，如果我们想选择 id 为 container 的节点，用 CSS 选择器表示为：#container(2) 如下，如果我们想选择 class 为 wrapper 的节点，用 CSS 选择器表示为：.wrappe 阅读全文

posted @ 2019-03-14 14:21 孔雀东南飞阅读(294) 评论(0) 推荐(1)

网页的结构

摘要：一个网页的标准结构如下： <DOCTYPE>标签定义了文档类型<html>标签定义一个HTML文档<head>标签定义了网页的头部信息<body>标签定义了网页的主体信息阅读全文

posted @ 2019-03-14 14:20 孔雀东南飞阅读(254) 评论(0) 推荐(1)

HTML节点树

摘要：在 HTML 中，所有标签定义的内容都是节点：整个文档是一个文档节点每个HTML元素是元素节点 HTML元素内的文本是文本节点每个HTML属性是属性节点注释是注释节点这些节点构成了一个 HTML 节点树，节点树中的节点彼此拥有层级关系，我们常用父节点、子节点、兄弟节点来描述节点之间的关阅读全文

posted @ 2019-03-14 14:20 孔雀东南飞阅读(1323) 评论(0) 推荐(1)

网页的组成

摘要：一个网页由以下三部分组成： (1) HTML：相当于人体的骨架，定义了网页的结构，包含文字、图片、按钮、视频等各种复杂的元素，各种标签通过不同的排列和嵌套形成了网页的框架(2) JavaScript：相当于人体的肌肉，定义了网页的行为，也就是让网页可以与用户进行交互，如下载进度条、提示框、阅读全文

posted @ 2019-03-14 14:19 孔雀东南飞阅读(2426) 评论(0) 推荐(1)

HTTP 请求过程

摘要：如下，我们在浏览器输入一个域名，按回车之后，便向该域名对应的服务器发送了一个请求；服务器接收到这个请求后进行处理和解析，然后返回响应的内容给浏览器，浏览器再对其进行解析然后呈现网页我们可以通过 Chrome 浏览器查看到这个过程，按 F12 然后访问百度，可以看到发送了哪些请求： Name：请求的阅读全文

posted @ 2019-03-14 14:16 孔雀东南飞阅读(644) 评论(0) 推荐(0)

HTTP 基础术语

摘要： URI 和 URL：URI用于标记一个网络资源，URL则表示这个网络资源的访问地址，详细说明超文本：普通的一段文字叫做文本，如果给这段文字加上超链接，那么就叫做超文本，HTML 就是超文本标记语言 HTTP：全称是 Hyper Text Transfer Protocol ，超文本传输协议，是用于阅读全文

posted @ 2019-03-14 14:15 孔雀东南飞阅读(331) 评论(0) 推荐(1)

《投资最重要的事》

摘要：第1章学习第二层次思维第2章理解市场有效性及局限性第3章准确估计价值第4章价格与价值的关系第5章理解风险第6章识别风险第7章控制风险第8章关注周期第9章钟摆意识第10章抵御消极影响第11章逆向投资第12章寻找便宜货第13章耐心等待机会第14章认识阅读全文

posted @ 2019-03-14 07:42 孔雀东南飞阅读(214) 评论(0) 推荐(0)

孔雀东南飞

公告