摘要: 1、引入 在Python的爬虫项目中,通常需要解析获取到的页面内容,得到特定节点中的数据。所以需要解析工具,可以选择:正则式,bs4,xpath等。在这里我们选择使用Xpath对HTML内容解析 XPath,全称XML Path Language,即XML路径语言,可以在XML,HTML文档中查找信 阅读全文
posted @ 2021-09-15 16:40 三月减肥的猫 阅读(8817) 评论(0) 推荐(0)
摘要: 1、Requests介绍 Requests 是使用 Apache2 Licensed 许可证的 基于Python开发的HTTP 库,其在Python内置模块的基础上进行了高度的封装,从而使得Pythoner进行网络请求时,变得美好了许多,使用Requests可以轻而易举的完成浏览器可有的任何操作。支 阅读全文
posted @ 2021-09-15 10:21 三月减肥的猫 阅读(334) 评论(0) 推荐(0)
摘要: 什么是爬虫:通过编写程序,模拟浏览器上网,然后让其去互联网抓取数据的过程爬虫的分类: 通用爬虫 抓取系统的重要部分(搜素引擎),一整张页面数据 聚焦爬虫 在通用爬虫的基础上,抓取页面上的特定数据 增量式爬虫 监测网站中数据更新的情况,只会抓取更新的内容爬虫中的矛与盾: 反爬机制 门户网站,可以通过定 阅读全文
posted @ 2021-09-15 09:27 三月减肥的猫 阅读(50) 评论(0) 推荐(0)