爬虫 - 随笔分类 - 人生不如戏

摘要：整体流程具体流程阅读全文

posted @ 2018-07-03 19:39 人生不如戏阅读(1228) 评论(0) 推荐(0)

摘要：简介 Django、Flask、scrapy都包含了一个“信号分配器”，使得当一些动作在框架的其他地方发生的时候，解耦的应用可以得到提醒。通俗来讲，就是一些动作发生的时候，信号允许特定的发送者去提醒一些接受者，这是特别有用的设计因为有些代码对某些事件是特别感兴趣的，比如删除动作。下面，分别介绍一阅读全文

posted @ 2018-07-03 19:30 人生不如戏阅读(935) 评论(1) 推荐(1)

scrapy之中间件

摘要：中间件的简介 1.中间件的作用在scrapy运行的整个过程中,对scrapy框架运行的某些步骤做一些适配自己项目的动作. 例如scrapy内置的HttpErrorMiddleware,可以在http请求出错时做一些处理. 2.中间件的使用方法配置settings.py.详见scrapy文档 ht 阅读全文

posted @ 2018-07-03 16:40 人生不如戏阅读(1007) 评论(0) 推荐(0)

爬虫之Xpath详解

摘要：XPath介绍 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。 XPath 是 W3C XSLT 标准的主要元素，并且 XQuery 和 XPointer 都构建于 XPath 表达之上。因此，对 XPath 的理解是很多高级 XML 阅读全文

posted @ 2018-06-29 20:05 人生不如戏阅读(3994) 评论(0) 推荐(0)

网络爬虫之scrapy框架设置代理

摘要：前戏 os.environ()简介 os.environ()可以获取到当前进程的环境变量，注意，是当前进程。如果我们在一个程序中设置了环境变量，另一个程序是无法获取设置的那个变量的。环境变量是以一个字典的形式存在的，可以用字典的方法来取值或者设置值。 os.environ() key字段详解 w 阅读全文

posted @ 2018-06-29 19:00 人生不如戏阅读(3817) 评论(0) 推荐(0)

网络爬虫之scrapy框架详解

摘要：twisted介绍 Twisted是用Python实现的基于事件驱动的网络引擎框架，scrapy正是依赖于twisted，它是基于事件循环的异步非阻塞网络框架，可以实现爬虫的并发。 twisted是什么以及和requests的区别： twisted的特点是：非阻塞：不等待异步：回调事件循环：阅读全文

posted @ 2018-06-28 17:29 人生不如戏阅读(2721) 评论(5) 推荐(1)

网络爬虫值scrapy框架基础

摘要：简介 Scrapy是一个高级的Python爬虫框架，它不仅包含了爬虫的特性，还可以方便的将爬虫数据保存到csv、json等文件中。首先我们安装Scrapy。其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取阅读全文

posted @ 2018-06-27 16:47 人生不如戏阅读(407) 评论(0) 推荐(0)

requests+BeautifulSoup详解

摘要：简介 Python标准库中提供了：urllib、urllib2、httplib等模块以供Http请求，但是，它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作，甚至包括各种方法覆盖，来完成最简单的任务。 Requests 是使用 Apache2 Licensed 许可证的阅读全文

posted @ 2018-06-25 19:53 人生不如戏阅读(5076) 评论(0) 推荐(1)

爬虫值requests库

摘要：requests简介简介 Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库，使用起来比urllib简洁很多因为是第三方库，所以使用前需要cmd安装 pip install requests 安装完成后import一下，正常阅读全文

posted @ 2018-05-16 21:17 人生不如戏阅读(476) 评论(0) 推荐(0)

爬虫之ssh证书警告错误

摘要：错误信息：错误信息如下：错误分析： ssh证书是美国网景公司发放的一个安全认证证书，有了这个证书即可证明网站是安全的，但是认证是需要收费的，所以一些网站就会自己仿造证书，这个时候浏览器就会给予警告，而我们爬虫就爬不到想要的信息解决办法：方式一：加上一个参数：verify=证书路径，或ve 阅读全文

posted @ 2018-05-13 19:10 人生不如戏阅读(1578) 评论(1) 推荐(1)

爬虫之FileCookieJar

摘要：简介虽然CookieJar模块能够做到给请求设置cookie，但是它的cookie是保存在内存里的，每次用都需要重新设置，这就衍生了一个它的子类 FileCookieJar，它可以将cookie保存在文件中，然后直接使用就可了示例 cookie的保存 cookie的调用阅读全文

posted @ 2018-05-13 18:35 人生不如戏阅读(735) 评论(0) 推荐(0)

爬虫之proxy（代理）

摘要：proxy简介 proxy即为代理，我们爬虫的时候肯定会有频繁访问某一网站的情况，这个时候有些服务器会识别到我们是非正常访问，就会把我们的IP禁掉，这个时候就需要用代理了。就好比现实生活中，我需要向A借一件东西，但是我跟A是仇人，直接向他借的话他不会借给我，这个时候我就让B帮我像A借，就说他要用，阅读全文

posted @ 2018-05-10 11:51 人生不如戏阅读(5500) 评论(1) 推荐(2)

爬虫之UserAgent

摘要：UserAgent简介 UserAgent中文名为用户代理，是Http协议中的一部分，属于头域的组成部分，UserAgent也简称UA。它是一个特殊字符串头，是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识。通过这个标识，用户所访问的网站可以显示不同的排版从而阅读全文

posted @ 2018-05-10 00:27 人生不如戏阅读(4986) 评论(0) 推荐(0)

爬虫之urllib.error模块

摘要：error模块简介我们在爬虫的时候发请求的时候难免出现错误，如访问不到服务器或者访问被禁止等等，出错了之后urllib将错误信息封装成了一个模块对象中，这个模块就叫error模块 error的分类分为URLError和HTTPError。 URLError是OSError的一个子类有以下错误阅读全文

posted @ 2018-05-09 23:56 人生不如戏阅读(453) 评论(0) 推荐(0)

爬虫之urllib包以及request模块和parse模块

摘要：urllib简介简介 Python3中将python2.7的urllib和urllib2两个包合并成了一个urllib库 Python3中,urllib库包含有四个模块: 模块安装与导入 urllib是python自带的一个包，无需安装，导入方法如下： urllib.request urllib. 阅读全文

posted @ 2018-05-09 22:43 人生不如戏阅读(2344) 评论(0) 推荐(1)

爬虫简介

摘要：爬虫的定义爬虫：按照一定的规则，自动抓取互联网信息的程序或者脚本，从而获取对于我们有价值的信息。爬虫的两大特征爬虫的三大步骤爬虫的分类爬虫的结构 Python爬虫架构主要由五个部分组成，分别是调度器、URL管理器、网页下载器、网页解析器、应用程序（爬取的有价值数据）。爬虫的执行流程爬虫阅读全文

posted @ 2018-05-09 21:24 人生不如戏阅读(1007) 评论(0) 推荐(0)

爬虫知识总汇

摘要：爬虫简介爬虫简介爬虫相关urllib包常用模块 urllib.request urllib.error urllib.parse 爬虫身份伪造 UserAgent proxy 爬虫身份认证 CookieJar FileCookieJar 爬虫相关requests包常用模块 requests概述阅读全文

posted @ 2018-05-09 20:40 人生不如戏阅读(356) 评论(0) 推荐(0)

while True:just do it

随笔分类 - 爬虫

公告