这里是你的通告内容

春生

Be humble, communicate clearly, and respect others.

随笔分类 -  爬虫

摘要:scrapy 增量式 前言 首先 通常我们的爬虫都是一次性。应用场景并不多 概念 用于检测网站的数据跟新并实时抓取数据 核心机制 (去除重复数据) 去重 利用reids的set实现去重 一、创建项目 scrapy startproject zlsPro cd zlsPro scrapy genspi 阅读全文
posted @ 2020-03-23 18:52 PythonAV 阅读(408) 评论(0) 推荐(0)
摘要:scrapy 分布式 前言 scrapy 首先是不能实现 分布式。 因为调度器不能被共享 管道不可以被共享 分布式 首先 分布式 是什么意识呢? 就是 需要搭建一个分布式机群,然后在机群的每一台服务器中执行同一组程序,让其对某个网站的数据进行联合分布式爬取。 如何实现分布式 基于 + 实现分布式 s 阅读全文
posted @ 2020-03-23 11:38 PythonAV 阅读(350) 评论(0) 推荐(0)
摘要:爬虫链接 搜狗 : "https://www.sogou.com/web?query=春生" 豆瓣电影: https://movie.douban.com/j/chart/top_list 肯德基查询: http://www.kfc.com.cn/kfccda/ashx/GetStoreList.a 阅读全文
posted @ 2019-12-16 17:23 PythonAV 阅读(1022) 评论(0) 推荐(0)
摘要:http和https协议 今日概要 http协议 https协议 https协议加密方式 今日详情 一 、HTTP协议 官方概念 HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到 阅读全文
posted @ 2019-11-28 15:59 PythonAV 阅读(296) 评论(0) 推荐(1)
摘要:爬虫的合法性研究 爬虫究竟是合法还是违法的? 这个问题 确实让我们程序员有点后背发凉、只是写了几行简单的代码 就莫名其妙的进局子了,还以为我们干什了大买卖呢。那么今天我们就探究一下爬虫的合法性。 正解在此 爬虫作业一种计算机技术就决定了它的中立性,因此爬虫本身在法律上是不被禁止,但是利用爬虫技术获取 阅读全文
posted @ 2019-11-28 15:58 PythonAV 阅读(1409) 评论(0) 推荐(0)
摘要:爬虫介绍 引入 之前授课过程当中,好多同学都问过我同一样的一个问题: 为什么要学习爬虫、学习爬虫能够对我们以后未来有什么发展带来那些好处? 其实学习爬虫的原因和我们以后发展带来的好处显而易见的,无论是从实际的应用还是从就业。 我们都知道,当前我们所处的时代大数据时代、大数据时代,要进行数据分析,首先 阅读全文
posted @ 2019-11-28 15:55 PythonAV 阅读(507) 评论(0) 推荐(0)
摘要:Jupyter Notebook环境安装 一、什么是jupyter Notebook 1.简介 Jupyter Notebook 是基于网页的用于交互计算机的应用程序器可被应用程序、 能让用户将说明文本、数学方程式、代码可视化内容全部组合到一个共享文档中。 —— "Jupyter Notebook官 阅读全文
posted @ 2019-11-28 15:50 PythonAV 阅读(335) 评论(0) 推荐(0)
摘要:点击标题查看文章 "Request" "Python爬虫 正则" "Python爬虫 XPath" "Python爬虫 PyQuery" "Python爬虫 BeautiulSoup4" 阅读全文
posted @ 2019-11-28 15:48 PythonAV 阅读(510) 评论(0) 推荐(0)
摘要:urlopen 爬取网页 爬取网页 read() 读取内容 read() , readline() ,readlines() , fileno() , close() :这些方法的使用方式与文件对象完全一样 urlretrieve 写入文件 直接 将你要爬取得 网页 写到本地 urlcleanup 阅读全文
posted @ 2019-06-26 19:48 PythonAV 阅读(424) 评论(0) 推荐(0)
摘要:url error URLError 产生的原因主要有: 1. 没有网络连接 2. 服务器连接失败 3. 找不到指定的服务器 我们可以用try except语句来捕获相应的异常 HTTPError 1. HTTPError是URLError的子类,我们发出一个请求时,服务器上都会对应一个respon 阅读全文
posted @ 2019-06-25 22:02 PythonAV 阅读(549) 评论(0) 推荐(0)
摘要:中间件的简介 1.中间件的作用 在scrapy运行的整个过程中,对scrapy框架运行的某些步骤做一些适配自己项目的动作. 例如scrapy内置的HttpErrorMiddleware,可以在http请求出错时做一些处理. 2.中间件的使用方法 配置settings.py.详见scrapy文档 ht 阅读全文
posted @ 2018-07-03 19:28 PythonAV 阅读(453) 评论(0) 推荐(0)
摘要:单爬虫运行 import sys from scrapy.cmdline import execute if __name__ == '__main__': execute(["scrapy","crawl","chouti","--nolog"]) 然后右键运行py文件即可运行名为‘chouti‘ 阅读全文
posted @ 2018-07-03 19:23 PythonAV 阅读(225) 评论(0) 推荐(0)
摘要:前戏 os.environ()简介 os.environ()可以获取到当前进程的环境变量,注意,是当前进程。 如果我们在一个程序中设置了环境变量,另一个程序是无法获取设置的那个变量的。 环境变量是以一个字典的形式存在的,可以用字典的方法来取值或者设置值。 os.environ() key字段详解 w 阅读全文
posted @ 2018-07-02 21:43 PythonAV 阅读(409) 评论(0) 推荐(0)
摘要:XPath介绍 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。 XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。 因此,对 XPath 的理解是很多高级 XML 阅读全文
posted @ 2018-07-02 21:22 PythonAV 阅读(236) 评论(0) 推荐(0)
摘要:twisted介绍 Twisted是用Python实现的基于事件驱动的网络引擎框架,scrapy正是依赖于twisted, 从而基于事件循环机制实现爬虫的并发。 scrapy的pipeline文件和items文件 这两个文件有什么作用 先看看我们上篇的示例: 在这个示例中,虽然我们已经通过chout 阅读全文
posted @ 2018-06-28 21:29 PythonAV 阅读(303) 评论(0) 推荐(0)
摘要:简介 Scrapy是一个高级的Python爬虫框架,它不仅包含了爬虫的特性,还可以方便的将爬虫数据保存到csv、json等文件中。 首先我们安装Scrapy。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取 阅读全文
posted @ 2018-06-27 20:41 PythonAV 阅读(301) 评论(0) 推荐(0)
摘要:简介 Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。 Requests 是使用 Apache2 Licensed 许可证的 阅读全文
posted @ 2018-06-25 23:01 PythonAV 阅读(684) 评论(0) 推荐(0)