代码改变世界

随笔分类 -  python爬虫

python爬虫从入门到放弃(八)之 Selenium库的使用

2019-01-26 23:42 by 清风软件测试开发, 546 阅读, 收藏,
摘要: 原文地址https://www.cnblogs.com/zhaof/p/6953241.html 一、什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处 阅读全文

python爬虫从入门到放弃(七)之 PyQuery库的使用

2019-01-26 23:36 by 清风软件测试开发, 571 阅读, 收藏,
摘要: 原文地址https://www.cnblogs.com/zhaof/p/6935473.html PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严格 阅读全文

python爬虫从入门到放弃(六)之 BeautifulSoup库的使用

2019-01-26 23:30 by 清风软件测试开发, 398 阅读, 收藏,
摘要: 原文地址https://www.cnblogs.com/zhaof/p/6930955.html 上一篇文章的正则,其实对很多人来说用起来是不方便的,加上需要记很多规则,所以用起来不是特别熟练,而这节我们提到的beautifulsoup就是一个非常强大的工具,爬虫利器。 beautifulSoup 阅读全文

python爬虫从入门到放弃(五)之 正则的基本使用

2019-01-26 23:19 by 清风软件测试开发, 447 阅读, 收藏,
摘要: 原文地址https://www.cnblogs.com/zhaof/p/6925674.html 什么是正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是 事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符”,这个“规则字符” 来表达对字符的一种过滤逻辑。 正则并不是pytho 阅读全文

python爬虫从入门到放弃(四)之 Requests库的基本使用

2019-01-26 23:08 by 清风软件测试开发, 657 阅读, 收藏,
摘要: 原文地址https://www.cnblogs.com/zhaof/p/6915127.html python爬虫从入门到放弃(四)之 Requests库的基本使用 什么是Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的 阅读全文

python爬虫从入门到放弃(三)之 Urllib库的基本使用

2019-01-26 23:04 by 清风软件测试开发, 576 阅读, 收藏,
摘要: 原文地址https://www.cnblogs.com/zhaof/p/6910871.html 官方文档地址:https://docs.python.org/3/library/urllib.html 什么是Urllib Urllib是python内置的HTTP请求库包括以下模块urllib.re 阅读全文

python爬虫从入门到放弃(二)之爬虫的原理

2019-01-26 22:57 by 清风软件测试开发, 704 阅读, 收藏,
摘要: 原文地址https://www.cnblogs.com/zhaof/p/6898138.html 在上文中我们说了:爬虫就是请求网站并提取数据的自动化程序。其中请求,提取,自动化是爬虫的关键!下面我们分析爬虫的基本流程 爬虫的基本流程 发起请求通过HTTP库向目标站点发起请求,也就是发送一个Requ 阅读全文

python爬虫从入门到放弃(一)之初识爬虫

2019-01-26 22:53 by 清风软件测试开发, 758 阅读, 收藏,
摘要: 原文地址https://www.cnblogs.com/zhaof/p/6897393.html 整理这个文档的初衷是自己开始学习的时候没有找到好的教程和文本资料,自己整理一份这样的资料希望能对小伙伴有帮助 什么是爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追 阅读全文

Python Scrapy爬虫速成指南

2019-01-26 21:31 by 清风软件测试开发, 707 阅读, 收藏,
摘要: 序 本文主要内容:以最短的时间写一个最简单的爬虫,可以抓取论坛的帖子标题和帖子内容。 本文受众:没写过爬虫的萌新。 入门 0.准备工作 需要准备的东西: Python、scrapy、一个IDE或者随便什么文本编辑工具。 1.技术部已经研究决定了,你来写爬虫。 随便建一个工作目录,然后用命令行建立一个 阅读全文

python中参数传递之位置传递、关键字传递、包裹传递与解包裹

2019-01-26 16:14 by 清风软件测试开发, 1409 阅读, 收藏,
摘要: 原文地址https://blog.csdn.net/love666666shen/article/details/77131487 1.位置与关键字传递 (1)位置传递:先用形式参数定义,然后在调用时对应位置使用实参(具体的数值)调用 def sum(a, b): return a + b sum( 阅读全文

Python解决乱码问题

2019-01-26 15:28 by 清风软件测试开发, 1809 阅读, 收藏,
摘要: 解决python乱码问题 字符串在python的内部采用unicode的编码方式,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。 编码是一种用二进制数据表示抽象字符的方式,u 阅读全文

python beautiful soup库的超详细用法

2019-01-26 12:55 by 清风软件测试开发, 4890 阅读, 收藏,
摘要: 原文地址https://blog.csdn.net/love666666shen/article/details/77512353 参考文章https://cuiqingcai.com/1319.html Beautiful Soup中文手册https://www.crummy.com/softwa 阅读全文

Python requests库如何下载一个图片资源

2019-01-20 21:52 by 清风软件测试开发, 4298 阅读, 收藏,
摘要: 原文地址https://blog.csdn.net/u011541946/article/details/77700074 前面一篇文章介绍了response对象的一些常用API,也已经提到,我们的重点是对response对象的操作。主要的操作就是数据分析和提取,一般来说,数据有很多种,有字段,有图 阅读全文

python多线程

2016-11-11 17:19 by 清风软件测试开发, 753 阅读, 收藏,
摘要: python多线程详解 Python-Socket网络编程 1. thread模块 python是支持多线程的, 主要是通过thread和threading这两个模块来实现的。 python的thread模块是比较底层的模块(或者说轻量级),python的threading模块是对thread做了一 阅读全文