爬虫 - 随笔分类 - 我家有只大白兔

14_XPath

摘要：XPath，全称XML Path Language，即XML路径语言，它是一门在XML文档中查找信息的语言。它最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索。所以在做爬虫时，我们完全可以使用XPath来做相应的信息抽取。本节中，我们就来介绍XPath的基本用法。 1. XPath概阅读全文

posted @ 2019-01-08 11:28 我家有只大白兔阅读(226) 评论(0) 推荐(0)

13_多线程

摘要：前言在上一节中介绍了thread多线程库。python中的多线程其实并不是真正的多线程，并不能做到充分利用多核CPU资源。如果想要充分利用，在python中大部分情况需要使用多进程，那么这个包就叫做 multiprocessing。借助它，可以轻松完成从单进程到并发执行的转换。multipro 阅读全文

posted @ 2019-01-07 11:27 我家有只大白兔阅读(297) 评论(0) 推荐(0)

12_多线程

摘要：前言我们之前写的爬虫都是单个线程的？这怎么够？一旦一个地方卡到不动了，那不就永远等待下去了？为此我们可以使用多线程或者多进程来处理。首先声明一点！多线程和多进程是不一样的！一个是 thread 库，一个是 multiprocessing 库。而多线程 thread 在 Python 里面被称作阅读全文

posted @ 2019-01-07 11:20 我家有只大白兔阅读(184) 评论(0) 推荐(0)

11_正则表达式

摘要：本节中，我们看一下正则表达式的相关用法。正则表达式是处理字符串的强大工具，它有自己特定的语法结构，有了它，实现字符串的检索、替换、匹配验证都不在话下。当然，对于爬虫来说，有了它，从HTML里提取想要的信息就非常方便了。 1. 实例引入说了这么多，可能我们对它到底是个什么还是比较模糊，下面就用几个阅读全文

posted @ 2019-01-03 17:27 我家有只大白兔阅读(629) 评论(0) 推荐(0)

10_requests（二）之高级用法

摘要：在前一节中，我们了解了requests的基本用法，如基本的GET、POST请求以及Response对象。本节中，我们再来了解下requests的一些高级用法，如文件上传、cookie设置、代理设置等。 1. 文件上传我们知道requests可以模拟提交一些数据。假如有的网站需要上传文件，我们也可以阅读全文

posted @ 2019-01-03 15:14 我家有只大白兔阅读(757) 评论(0) 推荐(0)

09_requests（一）之基本用法

摘要：1. 实例引入 urllib库中的urlopen()方法实际上是以GET方式请求网页，而requests中相应的方法就是get()方法，是不是感觉表达更明确一些？下面通过实例来看一下： 1 2 3 4 5 6 7 8 import requests r = requests.get('https:/ 阅读全文

posted @ 2019-01-03 14:27 我家有只大白兔阅读(674) 评论(0) 推荐(0)

08_urllib（四）Robots协议

摘要：利用urllib的robotparser模块，我们可以实现网站Robots协议的分析。本节中，我们来简单了解一下该模块的用法。 1. Robots协议 Robots协议也称作爬虫协议、机器人协议，它的全名叫作网络爬虫排除标准（Robots Exclusion Protocol），用来告诉爬虫和搜索引阅读全文

posted @ 2019-01-03 14:04 我家有只大白兔阅读(259) 评论(0) 推荐(0)

07_urllib（3）之解析链接

摘要：前面说过，urllib库里还提供了parse这个模块，它定义了处理URL的标准接口，例如实现URL各部分的抽取、合并以及链接转换。它支持如下协议的URL处理：file、ftp、gopher、hdl、http、https、imap、mailto、 mms、news、nntp、prospero、rsyn 阅读全文

posted @ 2019-01-03 13:51 我家有只大白兔阅读(532) 评论(0) 推荐(0)

06_urllib（2）之处理异常

摘要：前一节我们了解了请求的发送过程，但是在网络不好的情况下，如果出现了异常，该怎么办呢？这时如果不处理这些异常，程序很可能因报错而终止运行，所以异常处理还是十分有必要的。 urllib的error模块定义了由request模块产生的异常。如果出现了问题，request模块便会抛出error模块中定义的异阅读全文

posted @ 2019-01-03 13:37 我家有只大白兔阅读(214) 评论(0) 推荐(0)

05_urllib（1）之发送请求

摘要：前言：在Python 2中，有urllib和urllib2两个库来实现请求的发送。而在Python 3中，已经不存在urllib2这个库了，统一为urllib，其官方文档链接为：https://docs.python.org/3/library/urllib.html。首先，了解一下urllib 阅读全文

posted @ 2019-01-02 23:08 我家有只大白兔阅读(337) 评论(0) 推荐(0)

04_代理

摘要：我们在做爬虫的过程中经常会遇到这样的情况，最初爬虫正常运行，正常抓取数据，一切看起来都是那么美好，然而一杯茶的功夫可能就会出现错误，比如403 Forbidden，这时候打开网页一看，可能会看到“您的IP访问频率太高”这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。比如，服务器会检测某个I 阅读全文

posted @ 2019-01-01 14:22 我家有只大白兔阅读(157) 评论(0) 推荐(0)

03_会话和Cookies

摘要：在浏览网站的过程中，我们经常会遇到需要登录的情况，有些页面只有登录之后才可以访问，而且登录之后可以连续访问很多次网站，但是有时候过一段时间就需要重新登录。还有一些网站，在打开浏览器时就自动登录了，而且很长时间都不会失效，这种情况又是为什么？其实这里面涉及会话和Cookies的相关知识，本节就来揭开它阅读全文

posted @ 2018-12-30 13:06 我家有只大白兔阅读(190) 评论(0) 推荐(0)

02_网页基础

摘要：用浏览器访问网站时，页面各不相同，你有没有想过它为何会呈现这个样子呢？本节中，我们就来了解一下网页的基本组成、结构和节点等内容。 1. 网页的组成网页可以分为三大部分——HTML、CSS和JavaScript。如果把网页比作一个人的话，HTML相当于骨架，JavaScript相当于肌肉，CSS相当阅读全文

posted @ 2018-11-27 22:11 我家有只大白兔阅读(281) 评论(0) 推荐(0)

01_HTTP基本原理

摘要：1. URI和URL 这里我们先了解一下URI和URL，URI的全称为Uniform Resource Identifier，即统一资源标志符，URL的全称为Universal Resource Locator，即统一资源定位符。举例来说，https://github.com/favicon.ic 阅读全文

posted @ 2018-11-26 16:47 我家有只大白兔阅读(197) 评论(0) 推荐(0)

00_初识爬虫

摘要：我们可以把互联网比作一张大网，而爬虫（即网络爬虫）便是在网上爬行的蜘蛛。把网的节点比作一个个网页，爬虫爬到这就相当于访问了该页面，获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系，这样蜘蛛通过一个节点后，可以顺着节点连线继续爬行到达下一个节点，即通过一个网页继续获取后续的网页，这样整个网阅读全文

posted @ 2018-10-30 21:17 我家有只大白兔阅读(216) 评论(0) 推荐(0)

我家有只大白兔

随笔分类 - 爬虫

公告