11 2019 档案
摘要:我们在浏览百度贴吧时,会看到许多“神图”,我们想要保存,这个时候我们就会下载到本地,当我们学习了爬虫之后,就没有必要一个一个下载了,可以使用爬虫自动下载全部图片。 下面随便指定一个贴吧页:http://tieba.baidu.com/p/3242594565,爬取页面上的图片。首先对这个帖子进行观察
阅读全文
摘要:在初步了解网络爬虫之后,我们接下来就要动手运用Python来爬取网页了。 我们知道,网络爬虫应用一般分为两个步骤: 1.通过网页链接获取内容; 2.对获得的网页内容进行处理 这两个步骤需要分别使用不同的函数库:requests和beautifulsoup4。所以我们要安装这两个第三方库。 我所用的编
阅读全文
摘要:我们可以把互联网比作一张大网,而爬虫(网络爬虫)便是网上爬行的蜘蛛。把网的节点比作一个个网页,爬虫爬到这里就相当于访问了该页面,获取了其信息。可以把节点间的连线比作网页与网页间的链接关系,这样蜘蛛通过一个节点后,可以顺着节点连线继续爬行到达下一个节点,即通过一个网页继续获取后续的网页,这样整个网的节
阅读全文
摘要:作为高级语言,对文件进行操作时必不可少的功能。那么,Python是怎么对文件进行操作的呢? 1.什么是文件? 文件是一个存储在辅助存储器上的数据序列,可以包含任何数据内容。 文件包括两种类型:文本文件和二进制文件: 文本文件一般由单一特定编码的字符组成,如utf-8编码,内容容易统一展示和阅读。 二
阅读全文

浙公网安备 33010602011771号