随笔档案「2021年9月15日」：Python之HTML内容解析 ... - 三月减肥的猫

2021年9月15日

摘要： 1、引入在Python的爬虫项目中，通常需要解析获取到的页面内容，得到特定节点中的数据。所以需要解析工具，可以选择：正则式，bs4，xpath等。在这里我们选择使用Xpath对HTML内容解析 XPath，全称XML Path Language,即XML路径语言，可以在XML，HTML文档中查找信阅读全文

posted @ 2021-09-15 16:40 三月减肥的猫阅读(8835) 评论(0) 推荐(0)

Python模块之requests

摘要： 1、Requests介绍 Requests 是使用 Apache2 Licensed 许可证的基于Python开发的HTTP 库，其在Python内置模块的基础上进行了高度的封装，从而使得Pythoner进行网络请求时，变得美好了许多，使用Requests可以轻而易举的完成浏览器可有的任何操作。支阅读全文

posted @ 2021-09-15 10:21 三月减肥的猫阅读(358) 评论(0) 推荐(0)

Python爬虫知识碎片

摘要：什么是爬虫：通过编写程序，模拟浏览器上网，然后让其去互联网抓取数据的过程爬虫的分类：通用爬虫抓取系统的重要部分（搜素引擎），一整张页面数据聚焦爬虫在通用爬虫的基础上，抓取页面上的特定数据增量式爬虫监测网站中数据更新的情况，只会抓取更新的内容爬虫中的矛与盾：反爬机制门户网站，可以通过定阅读全文

posted @ 2021-09-15 09:27 三月减肥的猫阅读(59) 评论(0) 推荐(0)

imarch

公告