摘要:
Beautiful Soup 用法: (1) 前面我们爬取一个网页,都是使用正则表达式来提取想要的信息,但是这种方式比较复杂,一旦有一个地方写错,就匹配不出来了,因此我们可以使用 Beautiful Soup 来进行提取(2) Beautiful Soup 就是 Python 的一个 HTML 或 阅读全文
posted @ 2019-03-14 18:30
孔雀东南飞
阅读(205)
评论(0)
推荐(0)
摘要:
如下图,有些网站需要使用用户名密码才可以登录,我们可以使用 requests 的 auth 参数来实现 阅读全文
posted @ 2019-03-14 16:38
孔雀东南飞
阅读(346)
评论(0)
推荐(0)
摘要:
(1) 如果我们一直用同一个IP去请求同一个网站上的网页,久了之后可能会被该网站服务器屏蔽,因此我们可以使用代理IP来发起请求,代理实际上指的就是代理服务器(2) 当我们使用代理IP发起请求时,服务器端显示的是代理IP的地址,即使被屏蔽了,我们可以换一个代理IP继续爬取,代理IP获取页面:https 阅读全文
posted @ 2019-03-14 16:37
孔雀东南飞
阅读(864)
评论(0)
推荐(0)
摘要:
当我们访问 HTTPS 的网站时,需要进行证书验证,在浏览器中可以自动处理验证问题,在 Python 中有以下两种做法: 阅读全文
posted @ 2019-03-14 16:36
孔雀东南飞
阅读(3015)
评论(0)
推荐(0)
摘要:
什么是 Cookie 和 Session: 简单来说,我们访问每一个互联网页面,都是通过 HTTP 协议进行的,而 HTTP 协议是一个无状态协议,所谓的无状态协议即无法维持会话之间的状态。比如,仅使用 HTTP 协议的话,我们登录一个网站的时候,假如登录成功了,但是当我们访问该网站的其他网页的时候 阅读全文
posted @ 2019-03-14 16:35
孔雀东南飞
阅读(652)
评论(0)
推荐(0)
摘要:
POST请求也就是向服务器提交数据,通常我们用来提交表单数据: 阅读全文
posted @ 2019-03-14 16:33
孔雀东南飞
阅读(309)
评论(0)
推荐(0)
摘要:
基本用法: 发起带有参数的GET请求: 伪造请求头信息,发起GET请求: 阅读全文
posted @ 2019-03-14 16:32
孔雀东南飞
阅读(4095)
评论(0)
推荐(0)
摘要:
requests 是用来发送 HTTP 请求的一个库,requests 是对 urllib 和 urllib2 进行封装的一个模块,用来取代 urllib 和 urllib2,可以使用以下两种方法安装 requests 阅读全文
posted @ 2019-03-14 16:28
孔雀东南飞
阅读(223)
评论(0)
推荐(0)
摘要:
(1) Robots Exclusion Protocol,网络爬虫排除标准,也称爬虫协议、机器人协议,用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取(2) Robots 协议以 robots.txt 文件的形式表示,一般放在网站的根目录下,爬虫和搜索引擎要根据文件的内容范围来爬取,如果文件 阅读全文
posted @ 2019-03-14 16:25
孔雀东南飞
阅读(307)
评论(0)
推荐(0)
摘要:
urllib 库还提供了 parse 模块,它定义了处理 URL 的标准接口,例如实现 URL 各部分的抽取、合并以及链接转换,常用的方法如下: 阅读全文
posted @ 2019-03-14 16:23
孔雀东南飞
阅读(725)
评论(0)
推荐(0)
摘要:
(1) 我们发起 HTTP 请求,有时会发生异常,如请求超时,登录密码错误,请求链接不存在等等,使用 urllib.request.URLError 可以捕获这些与 URL 相关的异常(2) urllib.error.URLError 是一个异常类,如果我们使用 urlopen() 打开一个URL, 阅读全文
posted @ 2019-03-14 16:22
孔雀东南飞
阅读(388)
评论(0)
推荐(0)
摘要:
如何获取 Cookies : 如何携带 Cookie 信息登录到其他页面: 阅读全文
posted @ 2019-03-14 16:21
孔雀东南飞
阅读(598)
评论(0)
推荐(0)
摘要:
(1) 如果我们一直用同一个IP去请求同一个网站上的网页,久了之后可能会被该网站服务器屏蔽,因此我们可以使用代理IP来发起请求,代理实际上指的就是代理服务器(2) 当我们使用代理IP发起请求时,服务器端显示的是代理IP的地址,即使被屏蔽了,我们可以换一个代理IP继续爬取,代理IP获取页面:https 阅读全文
posted @ 2019-03-14 16:20
孔雀东南飞
阅读(792)
评论(0)
推荐(0)
摘要:
如下图,有些网站需要使用用户名密码才可以登录,我们可以使用 HTTPBasicAuthHandler() 来实现 阅读全文
posted @ 2019-03-14 16:19
孔雀东南飞
阅读(879)
评论(0)
推荐(0)
摘要:
我们可以使用 urllib.request.Request() 构造请求对象,但是对于一些更高级的操作,比如 Cookies 处理、代理设置 、身份验证等等,Request() 是处理不了的这时就需要更强大的工具 —— Handler,我们可以把它理解为各种处理器,有处理登录验证的,有处理 Cook 阅读全文
posted @ 2019-03-14 16:15
孔雀东南飞
阅读(363)
评论(0)
推荐(0)
摘要:
(1) urllib.request.urlopen()方法可以实现最基本请求的发起,但这几个简单的参数并不足以构建一个完整的请求(2) 我们可以使用 urllib.request.Request() 先构造一个请求对象,这个请求对象可以包含请求头信息,或者包含要向服务器传递的数据,然后再发送请求( 阅读全文
posted @ 2019-03-14 16:14
孔雀东南飞
阅读(491)
评论(0)
推荐(0)
摘要:
urllib.request.urlopen(url, data=None, timeout=n) 用于发送HTTP请求并得到响应内容 data 参数: (1) 该参数是可选的,如果要添加,则必须通过 urllib.parse.urlencode() 转换成字节流编码格式(2) 另外,如果传递了这个 阅读全文
posted @ 2019-03-14 16:13
孔雀东南飞
阅读(386)
评论(0)
推荐(0)
摘要:
(1) urllib.request:最基本的HTTP请求模块,用来模拟发送请求,就像在浏览器里输入网址然后回车一样(2) urllib.error:异常处理模块,如果出现请求错误,我们可以捕获这些异常,然后进行重试或其他操作以保证程序不会意外终止(3) urllib.parse:一个工具模块,提供 阅读全文
posted @ 2019-03-14 16:11
孔雀东南飞
阅读(149)
评论(0)
推荐(0)
摘要:
(1) urllib 是 Python 内置的 HTTP 请求库,用来向服务器发送 HTTP 请求(2) 在 Python2.x 中,有 urllib 和 urllib2 两个模块;在 Python3.x 中,urllib2 合并到了 urllib 中(3) 在 Python2.x 中使用 impo 阅读全文
posted @ 2019-03-14 16:10
孔雀东南飞
阅读(917)
评论(0)
推荐(0)
摘要:
爬虫节点爬取到的网页数据会存放到资源库中,资源库对爬取到的数据进行分析并建立索引,分析算法有以下几种 (1) 基于用户行为的分析算法:根据用户对网页的访问频率 、访问时长 、点击率等对网页数据进行分析(2) 基于网络拓扑的分析算法:根据网页的外链 、网页的层次 、网页的等级等对网页数据进行分析,计算 阅读全文
posted @ 2019-03-14 15:58
孔雀东南飞
阅读(1787)
评论(0)
推荐(0)
摘要:
一个网站的网页经常会更新,在网页更新之后,作为爬虫方,我们则需要对这些网页进行重新爬取,有以下几种策略进行重新爬取 (1) 用户体验策略:我们从浏览器搜索一个关键字,会出现一个排名结果,我们可以根据排名靠前的网页更新爬虫程序,对其进行爬取,这种更新策略称为用户体验策略(2) 历史数据策略:一般我们不 阅读全文
posted @ 2019-03-14 15:57
孔雀东南飞
阅读(607)
评论(0)
推荐(0)
摘要:
网络爬虫爬行过程中,会爬到一些新的URL,对这些 URL 爬取的顺序,是由爬行策略来决定的 (1) 深度优先爬行策略:先爬取一个网页,然后将这个网页的下层链接依次爬取完再返回上一层进行爬取,如下图,爬取的顺序是 A → D → E → B → C → F → G(2) 广度优先爬行策略:先爬取同一层 阅读全文
posted @ 2019-03-14 15:56
孔雀东南飞
阅读(2760)
评论(0)
推荐(0)
摘要:
(1) 网络爬虫由控制节点 、爬虫节点 、资源库组成;以搜索引擎或聚焦网络爬虫为例,先确定好要爬取的主题和要爬取的初始URL(2) 控制节点调用爬虫节点对初始URL进行爬取,爬行过程中,会爬到一些新的URL,会根据主题过滤掉一些URL,然后把剩下的URL根据优先级添加到URL队列等待爬取(3) 爬虫 阅读全文
posted @ 2019-03-14 15:55
孔雀东南飞
阅读(2191)
评论(0)
推荐(0)
摘要:
(1) 通用网络爬虫:也称全网爬虫,顾名思义,就是爬取的目标是互联网中的所有数据资源,主要应用于大型搜索引擎中(2) 聚焦网络爬虫:也称主题网络爬虫,按照预先定义好的主题有选择地进行网页爬取,爬取特定的资源(3) 增量式网络爬虫:即第二次爬取相同网页时,只爬取内容发生变化的数据,对于没有发生变化的不 阅读全文
posted @ 2019-03-14 15:54
孔雀东南飞
阅读(918)
评论(0)
推荐(0)
摘要:
(1) 网络爬虫由控制节点 、爬虫节点 、资源库组成(2) 控制节点,也就是爬虫节点的中央控制器,负责调用爬虫节点进行爬取(3) 爬虫节点会按照相关的算法,对网页进行具体的爬取,爬取后的结果会存储在资源库中 阅读全文
posted @ 2019-03-14 15:50
孔雀东南飞
阅读(874)
评论(0)
推荐(0)
摘要:
(1) 学习网络爬虫,可以私人定制一个搜索引擎,更好地理解数据采集原理(2) 为大数据分析提供更多高质量的数据源,获取更多有价值的信息(3) 可以更深层次地理解搜索引擎爬虫的工作原理,从而可以更好地进行搜索引擎优化(4) 从就业角度来说,爬虫工程师也是紧缺的人才,学习网络爬虫对就业来说非常有利 阅读全文
posted @ 2019-03-14 15:49
孔雀东南飞
阅读(710)
评论(0)
推荐(0)
摘要:
(1) 网络爬虫又称网络蜘蛛,可以自动化浏览网络中的信息,进行互联网信息的自动检索(2) 搜索引擎会在海量的互联网信息中爬取优质信息并收录,当用户在搜索引擎上检索对应关键词时,会从收录的网页中按照一定的算法或排名规则呈现给用户(3) 大数据也离不开网络爬虫,需要使用网络爬虫去一些比较大型的站点爬取数 阅读全文
posted @ 2019-03-14 15:48
孔雀东南飞
阅读(1139)
评论(0)
推荐(0)
摘要:
可以使用两种方式安装 Python3,一种是直接去官网下载安装包,然后进行安装即可;另一种是通过安装 Anaconda 来安装 Python3, Anaconda 提供了 Python 的科学计算环境,里面自带了 Python 以及常用的库,安装好之后,Python3 的环境就配置好了,推荐用这种方 阅读全文
posted @ 2019-03-14 15:43
孔雀东南飞
阅读(262)
评论(0)
推荐(0)
摘要:
如下,分别安装 Python3 、pip3 、Ipython3: 阅读全文
posted @ 2019-03-14 15:41
孔雀东南飞
阅读(174)
评论(0)
推荐(0)
摘要:
HTTP 代理: (1) 如果我们一直用同一个IP去爬取同一个网站上的网页,久了之后可能会被该网站服务器屏蔽,因此我们可以使用代理IP来爬取,代理实际上指的就是代理服务器(2) 当我们使用代理IP爬取时,服务器端显示的是代理IP的地址,即使被屏蔽了,我们可以换一个代理IP继续爬取,代理IP获取页面: 阅读全文
posted @ 2019-03-14 14:26
孔雀东南飞
阅读(432)
评论(0)
推荐(1)
摘要:
简单来说,我们访问每一个互联网页面,都是通过 HTTP 协议进行的,而 HTTP 协议是一个无状态协议,所谓的无状态协议即无法维持会话之间的状态。比如,仅使用 HTTP 协议的话,我们登录一个网站的时候,假如登录成功了,但是当我们访问该网站的其他网页的时候,该登录状态则会消失,此时还需要再登录一次, 阅读全文
posted @ 2019-03-14 14:23
孔雀东南飞
阅读(120)
评论(0)
推荐(1)
摘要:
(1) 简单来说,爬虫就是获取网页并提取和保存信息的自动化程序(2) 使用 Python 爬取网页 > 使用【正则表达式 | CSS 选择器 | XPath 选择器】提取信息 > 使用数据库保存提取的信息(3) 有时候,我们用 Python 爬取网页得到的源代码和浏览器中看到的不一样,如下,浏览器会 阅读全文
posted @ 2019-03-14 14:22
孔雀东南飞
阅读(191)
评论(0)
推荐(1)
摘要:
我们知道网页由一个个节点组成,那么我们可以使用 CSS 选择器来定位节点: (1) 如下,如果我们想选择 id 为 container 的节点,用 CSS 选择器表示为:#container(2) 如下,如果我们想选择 class 为 wrapper 的节点,用 CSS 选择器表示为:.wrappe 阅读全文
posted @ 2019-03-14 14:21
孔雀东南飞
阅读(294)
评论(0)
推荐(1)
摘要:
一个网页的标准结构如下: <DOCTYPE>标签定义了文档类型<html>标签定义一个HTML文档<head>标签定义了网页的头部信息<body>标签定义了网页的主体信息 阅读全文
posted @ 2019-03-14 14:20
孔雀东南飞
阅读(254)
评论(0)
推荐(1)
摘要:
在 HTML 中,所有标签定义的内容都是节点: 整个文档是一个文档节点 每个HTML元素是元素节点 HTML元素内的文本是文本节点 每个HTML属性是属性节点 注释是注释节点 这些节点构成了一个 HTML 节点树,节点树中的节点彼此拥有层级关系,我们常用父节点 、子节点 、兄弟节点来描述节点之间的关 阅读全文
posted @ 2019-03-14 14:20
孔雀东南飞
阅读(1323)
评论(0)
推荐(1)
摘要:
一个网页由以下三部分组成: (1) HTML:相当于人体的骨架,定义了网页的结构,包含文字 、图片 、按钮 、视频等各种复杂的元素,各种标签通过不同的排列和嵌套形成了网页的框架(2) JavaScript:相当于人体的肌肉,定义了网页的行为,也就是让网页可以与用户进行交互,如下载进度条 、提示框 、 阅读全文
posted @ 2019-03-14 14:19
孔雀东南飞
阅读(2426)
评论(0)
推荐(1)
摘要:
如下,我们在浏览器输入一个域名,按回车之后,便向该域名对应的服务器发送了一个请求;服务器接收到这个请求后进行处理和解析,然后返回响应的内容给浏览器,浏览器再对其进行解析然后呈现网页 我们可以通过 Chrome 浏览器查看到这个过程,按 F12 然后访问百度,可以看到发送了哪些请求: Name:请求的 阅读全文
posted @ 2019-03-14 14:16
孔雀东南飞
阅读(644)
评论(0)
推荐(0)
摘要:
URI 和 URL:URI用于标记一个网络资源,URL则表示这个网络资源的访问地址,详细说明 超文本:普通的一段文字叫做文本,如果给这段文字加上超链接,那么就叫做超文本,HTML 就是超文本标记语言 HTTP:全称是 Hyper Text Transfer Protocol ,超文本传输协议,是用于 阅读全文
posted @ 2019-03-14 14:15
孔雀东南飞
阅读(331)
评论(0)
推荐(1)
摘要:
第1章 学习第二层次思维 第2章 理解市场有效性及局限性 第3章 准确估计价值 第4章 价格与价值的关系 第5章 理解风险 第6章 识别风险 第7章 控制风险 第8章 关注周期 第9章 钟摆意识 第10章 抵御消极影响 第11章 逆向投资 第12章 寻找便宜货 第13章 耐心等待机会 第14章 认识 阅读全文
posted @ 2019-03-14 07:42
孔雀东南飞
阅读(214)
评论(0)
推荐(0)

浙公网安备 33010602011771号