摘要:
将镜像上传到远程之后,dockerfile按理来说只需一次拉取远程镜像就好了,之后每次都是使用第一次拉取的远程镜像。 但是实际上出现的问题是:dockerfile每次都从远程拉取镜像,浪费了资源和时间。 搜索的很久才知道原因:如果docker的镜像名称里面包含了”-“,那么dockerfile每次都 阅读全文
随笔档案-2019年01月
Python爬虫番外篇之关于登录
2019-01-27 01:05 by 清风软件测试开发, 685 阅读, 收藏,
摘要:
原文地址https://www.cnblogs.com/zhaof/p/7284312.html 常见的登录方式有以下两种: 上面只是简单的描述,下面是详细的针对两种登录方式的时候爬虫的处理方法 第一种情况 这种例子其实也比较多,现在很多网站的登录都是第一种的方法,这里通过以github为例子: 分 阅读全文
Python爬虫番外篇之Cookie和Session
2019-01-27 01:02 by 清风软件测试开发, 345 阅读, 收藏,
摘要:
原文地址https://i.cnblogs.com/EditPosts.aspx?opt=1 关于cookie和session估计很多程序员面试的时候都会被问到,这两个概念在写web以及爬虫中都会涉及,并且两者可能很多人直接回答也不好说的特别清楚,所以整理这样一篇文章,也帮助自己加深理解 什么是Co 阅读全文
爬虫性能相关
2019-01-27 01:00 by 清风软件测试开发, 372 阅读, 收藏,
摘要:
原文地址https://www.cnblogs.com/zhaof/p/7171148.html 这里我们通过请求网页例子来一步步理解爬虫性能 当我们有一个列表存放了一些url需要我们获取相关数据,我们首先想到的是循环 简单的循环串行 这一种方法相对来说是最慢的,因为一个一个循环,耗时是最长的,是所 阅读全文
python爬虫番外篇(一)进程,线程的初步了解
2019-01-27 00:58 by 清风软件测试开发, 310 阅读, 收藏,
摘要:
原文地址https://www.cnblogs.com/zhaof/p/6994991.html 整理这番外篇的原因是希望能够让爬虫的朋友更加理解这块内容,因为爬虫爬取数据可能很简单,但是如何高效持久的爬,利用进程,线程,以及异步IO,其实很多人和我一样,故整理此系列番外篇 一、进程 程序并不能单独 阅读全文
Python爬虫从入门到放弃(二十四)之 Scrapy登录知乎
2019-01-27 00:56 by 清风软件测试开发, 900 阅读, 收藏,
摘要:
原文地址https://www.cnblogs.com/zhaof/p/7406482.html 因为现在很多网站为了限制爬虫,设置了为只有登录才能看更多的内容,不登录只能看到部分内容,这也是一种反爬虫的手段,所以这个文章通过模拟登录知乎来作为例子,演示如何通过scrapy登录知乎 在通过scrap 阅读全文
Python爬虫从入门到放弃(二十三)之 Scrapy的中间件Downloader Middleware实现User-Agent随机切换
2019-01-27 00:52 by 清风软件测试开发, 538 阅读, 收藏,
摘要:
原文地址https://www.cnblogs.com/zhaof/p/7345856.html 总架构理解Middleware 通过scrapy官网最新的架构图来理解: 这个图较之前的图顺序更加清晰,从图中我们可以看出,在spiders和ENGINE提及ENGINE和DOWNLOADER之间都可以 阅读全文
Python爬虫从入门到放弃(二十二)之 爬虫与反爬虫大战
2019-01-27 00:50 by 清风软件测试开发, 651 阅读, 收藏,
摘要:
原文地址https://www.cnblogs.com/zhaof/p/7326260.html 爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家? 重新理解爬虫中的一些概念 爬虫:自动获取网站数据的程序反爬虫:使用技术手段防止爬虫程序爬取数据误伤:反爬虫技术将普通用户 阅读全文
Python爬虫从入门到放弃(二十一)之 Scrapy分布式部署
2019-01-27 00:49 by 清风软件测试开发, 448 阅读, 收藏,
摘要:
原文地址https://www.cnblogs.com/zhaof/p/7308865.html 按照上一篇文章中我们将代码放到远程主机是通过拷贝或者git的方式,但是如果考虑到我们又多台远程主机的情况,这种方式就比较麻烦,那有没有好用的方法呢?这里其实可以通过scrapyd,下面是这个scrapy 阅读全文
Python爬虫从入门到放弃(二十)之 Scrapy分布式原理
2019-01-27 00:44 by 清风软件测试开发, 444 阅读, 收藏,
摘要:
原文地址https://www.cnblogs.com/zhaof/p/7306374.html 关于Scrapy工作流程回顾 Scrapy单机架构 上图的架构其实就是一种单机架构,只在本机维护一个爬取队列,Scheduler进行调度,而要实现多态服务器共同爬取数据关键就是共享爬取队列。 这里重要的 阅读全文
Python爬虫从入门到放弃(十九)之 Scrapy爬取所有知乎用户信息(下)
2019-01-27 00:41 by 清风软件测试开发, 440 阅读, 收藏,
摘要:
原文地址https://www.cnblogs.com/zhaof/p/7228131.html 在上一篇文章中主要写了关于爬虫过程的分析,下面是代码的实现,完整代码在:https://github.com/pythonsite/spider items中的代码主要是我们要爬取的字段的定义 这些字段 阅读全文
Python爬虫从入门到放弃(十八)之 Scrapy爬取所有知乎用户信息(上)
2019-01-27 00:39 by 清风软件测试开发, 498 阅读, 收藏,
摘要:
原文地址https://www.cnblogs.com/zhaof/p/7215617.html 爬取的思路 首先我们应该找到一个账号,这个账号被关注的人和关注的人都相对比较多的,就是下图中金字塔顶端的人,然后通过爬取这个账号的信息后,再爬取他关注的人和被关注的人的账号信息,然后爬取被关注人的账号信 阅读全文
Python爬虫从入门到放弃(十七)之 Scrapy框架中Download Middleware用法
2019-01-27 00:27 by 清风软件测试开发, 524 阅读, 收藏,
摘要:
原文地址https://www.cnblogs.com/zhaof/p/7198407.html 这篇文章中写了常用的下载中间件的用法和例子。Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给spiders的时候,所以从 阅读全文
Python爬虫从入门到放弃(十六)之 Scrapy框架中Item Pipeline用法
2019-01-27 00:20 by 清风软件测试开发, 537 阅读, 收藏,
摘要:
原文地址https://www.cnblogs.com/zhaof/p/7196197.html 当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理 每个item pipeline组件是实现了简单的方法的python类,负责接收到item并通过它执行一些行为,同 阅读全文
Python爬虫从入门到放弃(十五)之 Scrapy框架中Spiders用法
2019-01-27 00:19 by 清风软件测试开发, 511 阅读, 收藏,
摘要:
原文地址https://www.cnblogs.com/zhaof/p/7192503.html Spider类定义了如何爬去某个网站,包括爬取的动作以及如何从网页内容中提取结构化的数据,总的来说spider就是定义爬取的动作以及分析某个网页 工作流程分析 我们以通过简单的分析源码来理解我通常在写s 阅读全文
Python爬虫从入门到放弃(十四)之 Scrapy框架中选择器的用法
2019-01-27 00:16 by 清风软件测试开发, 456 阅读, 收藏,
摘要:
原文地址https://www.cnblogs.com/zhaof/p/7189860.html Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言,也可以用在HTML 阅读全文
Python爬虫从入门到放弃(十三)之 Scrapy框架的命令行详解
2019-01-27 00:11 by 清风软件测试开发, 454 阅读, 收藏,
摘要:
原文地址https://www.cnblogs.com/zhaof/p/7183220.html 这篇文章主要是对的scrapy命令行使用的一个介绍 创建爬虫项目 scrapy startproject 项目名例子如下: 这个时候爬虫的目录结构就已经创建完成了,目录结构如下: 接着我们按照提示可以生 阅读全文
Python爬虫从入门到放弃(十二)之 Scrapy框架的架构和原理
2019-01-27 00:03 by 清风软件测试开发, 453 阅读, 收藏,
摘要:
原文地址https://www.cnblogs.com/zhaof/p/7173397.html 这一篇文章主要是为了对scrapy框架的工作流程以及各个组件功能的介绍 Scrapy目前已经可以很好的在python3上运行Scrapy使用了Twisted作为框架,Twisted有些特殊的地方是它是事 阅读全文
Python爬虫从入门到放弃(十一)之 Scrapy框架整体的一个了解
2019-01-26 23:59 by 清风软件测试开发, 413 阅读, 收藏,
摘要:
原文地址https://www.cnblogs.com/zhaof/p/7173094.html 这里是通过爬取伯乐在线的全部文章为例子,让自己先对scrapy进行一个整理的理解 该例子中的详细代码会放到我的github地址:https://github.com/pythonsite/spider/ 阅读全文
Python爬虫从入门到放弃(十)之 关于深度优先和广度优先
2019-01-26 23:48 by 清风软件测试开发, 722 阅读, 收藏,
摘要:
原文地址https://www.cnblogs.com/zhaof/p/7092400.html 网站的树结构 深度优先算法和实现 广度优先算法和实现 网站的树结构 通过伯乐在线网站为例子: 并且我们通过访问伯乐在线也是可以发现,我们从任何一个子页面其实都是可以返回到首页,所以当我们爬取页面的数据的 阅读全文
python爬虫从入门到放弃(九)之 实例爬取上海高级人民法院网开庭公告数据
2019-01-26 23:44 by 清风软件测试开发, 590 阅读, 收藏,
摘要:
原文地址https://www.cnblogs.com/zhaof/p/6959012.html 通过前面的文章已经学习了基本的爬虫知识,通过这个例子进行一下练习,毕竟前面文章的知识点只是一个 一个单独的散知识点,需要通过实际的例子进行融合 分析网站 其实爬虫最重要的是前面的分析网站,只有对要爬取的 阅读全文
python爬虫从入门到放弃(八)之 Selenium库的使用
2019-01-26 23:42 by 清风软件测试开发, 553 阅读, 收藏,
摘要:
原文地址https://www.cnblogs.com/zhaof/p/6953241.html 一、什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处 阅读全文
python爬虫从入门到放弃(七)之 PyQuery库的使用
2019-01-26 23:36 by 清风软件测试开发, 578 阅读, 收藏,
摘要:
原文地址https://www.cnblogs.com/zhaof/p/6935473.html PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严格 阅读全文
python爬虫从入门到放弃(六)之 BeautifulSoup库的使用
2019-01-26 23:30 by 清风软件测试开发, 411 阅读, 收藏,
摘要:
原文地址https://www.cnblogs.com/zhaof/p/6930955.html 上一篇文章的正则,其实对很多人来说用起来是不方便的,加上需要记很多规则,所以用起来不是特别熟练,而这节我们提到的beautifulsoup就是一个非常强大的工具,爬虫利器。 beautifulSoup 阅读全文
python爬虫从入门到放弃(五)之 正则的基本使用
2019-01-26 23:19 by 清风软件测试开发, 455 阅读, 收藏,
摘要:
原文地址https://www.cnblogs.com/zhaof/p/6925674.html 什么是正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是 事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符”,这个“规则字符” 来表达对字符的一种过滤逻辑。 正则并不是pytho 阅读全文
python爬虫从入门到放弃(四)之 Requests库的基本使用
2019-01-26 23:08 by 清风软件测试开发, 665 阅读, 收藏,
摘要:
原文地址https://www.cnblogs.com/zhaof/p/6915127.html python爬虫从入门到放弃(四)之 Requests库的基本使用 什么是Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的 阅读全文
python爬虫从入门到放弃(三)之 Urllib库的基本使用
2019-01-26 23:04 by 清风软件测试开发, 593 阅读, 收藏,
摘要:
原文地址https://www.cnblogs.com/zhaof/p/6910871.html 官方文档地址:https://docs.python.org/3/library/urllib.html 什么是Urllib Urllib是python内置的HTTP请求库包括以下模块urllib.re 阅读全文
python爬虫从入门到放弃(二)之爬虫的原理
2019-01-26 22:57 by 清风软件测试开发, 709 阅读, 收藏,
摘要:
原文地址https://www.cnblogs.com/zhaof/p/6898138.html 在上文中我们说了:爬虫就是请求网站并提取数据的自动化程序。其中请求,提取,自动化是爬虫的关键!下面我们分析爬虫的基本流程 爬虫的基本流程 发起请求通过HTTP库向目标站点发起请求,也就是发送一个Requ 阅读全文
python爬虫从入门到放弃(一)之初识爬虫
2019-01-26 22:53 by 清风软件测试开发, 762 阅读, 收藏,
摘要:
原文地址https://www.cnblogs.com/zhaof/p/6897393.html 整理这个文档的初衷是自己开始学习的时候没有找到好的教程和文本资料,自己整理一份这样的资料希望能对小伙伴有帮助 什么是爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追 阅读全文
Python Scrapy爬虫速成指南
2019-01-26 21:31 by 清风软件测试开发, 716 阅读, 收藏,
摘要:
序 本文主要内容:以最短的时间写一个最简单的爬虫,可以抓取论坛的帖子标题和帖子内容。 本文受众:没写过爬虫的萌新。 入门 0.准备工作 需要准备的东西: Python、scrapy、一个IDE或者随便什么文本编辑工具。 1.技术部已经研究决定了,你来写爬虫。 随便建一个工作目录,然后用命令行建立一个 阅读全文
Python类中的__init__() 和 self 的解析
2019-01-26 19:32 by 清风软件测试开发, 485 阅读, 收藏,
摘要:
原文地址https://www.cnblogs.com/ant-colonies/p/6718388.html 1、Python中self的含义 self,英文单词意思很明显,表示自己,本身。 此处有几种潜在含义: 1.这里的自己,指的是,实例Instance本身。 2.同时, 由于说到“自己”这个 阅读全文
Python中if __name__ == '__main__',__init__和self 的解析
2019-01-26 19:22 by 清风软件测试开发, 1046 阅读, 收藏,
摘要:
1.2.1 一个.py文件被其他.py文件引用 假设我们有一个const.py文件,内容如下: 现在,我们写一个用于计算圆面积的area.py文件,area.py文件需要用到const.py文件中的PI变量。 从const.py中,我们把PI变量导入area.py: 如上,我们可以看到if __na 阅读全文
Python中self和__init__的含义与使用
2019-01-26 18:30 by 清风软件测试开发, 3243 阅读, 收藏,
摘要:
原文地址https://blog.csdn.net/love666666shen/article/details/78189984 Python中的self 在Python中的类Class的代码中,常看到函数中的第一个参数,都是self;同时Class中的函数里面,访问对应的变量(读取或者写入),以 阅读全文
python中参数传递之位置传递、关键字传递、包裹传递与解包裹
2019-01-26 16:14 by 清风软件测试开发, 1418 阅读, 收藏,
摘要:
原文地址https://blog.csdn.net/love666666shen/article/details/77131487 1.位置与关键字传递 (1)位置传递:先用形式参数定义,然后在调用时对应位置使用实参(具体的数值)调用 def sum(a, b): return a + b sum( 阅读全文
Python解决乱码问题
2019-01-26 15:28 by 清风软件测试开发, 1816 阅读, 收藏,
摘要:
解决python乱码问题 字符串在python的内部采用unicode的编码方式,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。 编码是一种用二进制数据表示抽象字符的方式,u 阅读全文
python beautiful soup库的超详细用法
2019-01-26 12:55 by 清风软件测试开发, 4915 阅读, 收藏,
摘要:
原文地址https://blog.csdn.net/love666666shen/article/details/77512353 参考文章https://cuiqingcai.com/1319.html Beautiful Soup中文手册https://www.crummy.com/softwa 阅读全文
jmeter BeanShell断言(一)
2019-01-21 22:52 by 清风软件测试开发, 9797 阅读, 收藏,
摘要:
原文地址https://blog.csdn.net/lijing742180/article/details/81157947 原文地址https://blog.csdn.net/zailushangbuting/article/details/70808612 原文地址https://blog.c 阅读全文
Python requests库如何下载一个图片资源
2019-01-20 21:52 by 清风软件测试开发, 4339 阅读, 收藏,
摘要:
原文地址https://blog.csdn.net/u011541946/article/details/77700074 前面一篇文章介绍了response对象的一些常用API,也已经提到,我们的重点是对response对象的操作。主要的操作就是数据分析和提取,一般来说,数据有很多种,有字段,有图 阅读全文
基于python+Testlink+Jenkins实现的接口自动化测试框架V3.0
2019-01-13 02:31 by 清风软件测试开发, 879 阅读, 收藏,
摘要:
基于python+Testlink+Jenkins实现的接口自动化测试框架V3.0 目录 1、 开发环境2、 主要功能逻辑介绍3、 框架功能简介 4、 数据库的创建 5、 框架模块详细介绍6、 Testlink相关配置与用例管理a) API相关配置b) 项目相关配置c) 用例管理① 步骤动作和预期结 阅读全文
python的赋值,深拷贝和浅拷贝的区别
2019-01-08 12:52 by 清风软件测试开发, 339 阅读, 收藏,
摘要:
原文地址https://www.cnblogs.com/xueli/p/4952063.html 赋值:a = [1,2,3,["a","b"]] b=a,那么当 a=[1,2,3,["a","b","c"],5] 时,b 也等于[1,2,3,["a","b","c"],5] 赋值实际上是对象的引用 阅读全文
浙公网安备 33010602011771号