随笔分类 -  爬虫

分享学习爬虫的代码
摘要:这篇主要是代码练习篇。 爬取网址:下厨房 http://www.xiachufang.com/explore/ 一、robots 协议 规范爬取数据很重要!!robots 协议查看:/robots.txt 下厨房网页的robots 协议网址:http://www.xiachufang.com/rob 阅读全文
posted @ 2020-09-23 10:35 胖虎大人v 阅读(1292) 评论(0) 推荐(0)
摘要:第一篇讲到爬虫的四个步骤:获取数据 解析数据 提取数据 存储数据 第二篇有讲到利用requests 库去获取数据; 这篇主要是讲利用BeautifulSoup 库解析提取数据 一、解析数据和提取数据 解析数据 平常使用浏览器上网,浏览器会把服务器返回的HTML源代码翻译成我们看得懂的样子,然后我们才 阅读全文
posted @ 2020-09-22 14:13 胖虎大人v 阅读(1193) 评论(0) 推荐(0)
摘要:上一篇介绍的主要是爬虫的工作原理,大致分为四个步骤:获取数据 解析数据 提取数据 存储数据 。这一篇主要就从获取数据介绍起。 获取数据 1.requests 库下载安装 MAC :电脑打开终端软件,输入pip3 install requests winds:打开命令提示符(windows +r 快捷 阅读全文
posted @ 2020-09-15 16:32 胖虎大人v 阅读(656) 评论(0) 推荐(0)
摘要:一、爬虫定义 简单说的话,爬虫就像一个虚拟的虫子,然后利用这只虫子,我们可以在网上获取到我们想要的信息。 二、爬虫的工作原理 浏览器工作原理 一般情况下,我们获取数据都是打开浏览器,然后搜索关键字,浏览器去工作,然后显示出来我们要的数据,我们再进行复制粘贴或者其他操作。 类似于下图 这里的客户端是我 阅读全文
posted @ 2020-09-15 10:20 胖虎大人v 阅读(402) 评论(0) 推荐(0)