摘要: 在前面爬虫的相关介绍中,我们介绍了如何抓取静态页面信息。但是,在实际的网页浏览过程中,我们可能会经常碰到各种需要进行交互的操作,典型的如输入信息、点击按钮之类。 对于这种场景,之前的静态页面操作方式已经不能满足需求,这时我们需要借助新的工具,比如selenium或者PhantomJS。由于后者已经停 阅读全文
posted @ 2020-06-21 11:47 python两三事 阅读(744) 评论(2) 推荐(1) 编辑
摘要: 在前面我们介绍了如何通过某个页面爬取与之关联的外部网页,当时介绍的是使用广度优先搜索的方式爬取。 在本节,我们将介绍另一种爬取外部链接的方式,即深度优先搜索,爬取网页的分页。 由于本人喜欢古诗词,今天爬取的网页的内容就是古诗词,爬取的链接为:https://so.gushiwen.org/shiwe 阅读全文
posted @ 2020-06-21 11:37 python两三事 阅读(1384) 评论(0) 推荐(1) 编辑
摘要: 在前面的章节中,我们介绍了如何爬取单个网页和多个网页。所提取页面标签内容基本都是使用find方法。 在本章节,我们将对访问页面标签、属性和值进行一个系统的介绍,使用的url是https://www.ppzuowen.com/book/antushengtonghua/7403.html 1.使用绝对 阅读全文
posted @ 2020-06-21 11:25 python两三事 阅读(602) 评论(0) 推荐(0) 编辑
摘要: 在上一章我们介绍了如何使用BeautifulSoup抓取安徒生童话故事《丑小鸭》,通过一个简单的例子,大家应该对于python如何进行爬取网页内容有了一个初步的认识。 在这一章节,我们将延续上一章的内容进行网页内容的爬取,不过我们将难度提高一点,不再只是抓取一个页面,而是抓取很多个页面的内容。 在这 阅读全文
posted @ 2020-06-21 11:13 python两三事 阅读(185) 评论(0) 推荐(1) 编辑
摘要: 通过前面章节的介绍,我们对什么是爬虫有了初步的认识,同时对如何爬取网页有了一个大概的了解。从本章起,我们将从理论走向实践,结合实际操作来进一步深化理解。 由于使用python进行爬虫抓取页面可供使用的工具众多,比如requests、scrapy、PhantomJS、Splash等,并且对于抓取的页面 阅读全文
posted @ 2020-06-21 11:02 python两三事 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 在上一章节我们介绍了什么是爬虫,以及爬虫的用处。同时我们也介绍了在学习爬虫之前需要对网页的基本构成有一个大体认识。 为了帮助没有前端基础的童鞋能够更好的进入开发状态,这一章节将对网页的结构,以及涉及的html、css、js和http协议进行一个简单的介绍。 在开始学习之前建议大家安装chrome浏览 阅读全文
posted @ 2020-06-21 10:44 python两三事 阅读(206) 评论(0) 推荐(1) 编辑
摘要: 1.什么是爬虫 经常访问网络的朋友可能需要打开各种各样的网页。网页与网页、网页内部之间的相互连接都是通过一种叫做超链接的东西进行关联的,这种超链接,专业术语叫做统一资源定位符,英文缩写为url,也就是我们常说的网址。 用户通过在浏览器中输入url向服务器访问请求,使用的是一种叫做http或者http 阅读全文
posted @ 2020-06-21 10:24 python两三事 阅读(316) 评论(0) 推荐(1) 编辑