该文被密码保护。 阅读全文
posted @ 2024-03-31 17:04 ssrheart 阅读(1) 评论(0) 推荐(0) 编辑
摘要: Python爬虫 (1)介绍 Python爬虫是一种自动化获取互联网数据的技术,它通过编写程序实现自动访问网站并抓取所需的数据。 爬虫是一种自动化获取互联网数据的技术,通过模拟浏览器行为,向目标网站发送请求并获取响应,然后解析响应中的数据。 (2)爬虫的常用库 (1)requests 用于发送HTT 阅读全文
posted @ 2024-03-31 17:04 ssrheart 阅读(2) 评论(0) 推荐(0) 编辑
摘要: requests模块 (1)GET请求 (1)发送get请求 import requests url = "https://www.baidu.com/" # 发送请求获取响应数据 response = requests.get(url) 其中,一些常用的属性和方法包括: status_code: 阅读全文
posted @ 2024-03-31 17:04 ssrheart 阅读(7) 评论(0) 推荐(0) 编辑
摘要: BeatifulSoup (1)介绍 Beautiful Soup是Python库,用于解析HTML和XML文档。它提供简单而强大的工具,帮助用户从网页中提取数据。通过查找元素、遍历文档树和处理编码问题,它简化了数据提取过程。适用于网页抓取、数据挖掘和分析等应用场景。 pip install bea 阅读全文
posted @ 2024-03-31 17:04 ssrheart 阅读(11) 评论(0) 推荐(0) 编辑
摘要: xpath (1)介绍 可在XML中查找信息 支持HTML的查找 通过元素和属性进行导航 pip install lxml from lxml import etree # 将源码转化为能被XPath匹配的格式 selector = etree.HTML(源码) # 返回为一列表 res = sel 阅读全文
posted @ 2024-03-31 17:04 ssrheart 阅读(13) 评论(0) 推荐(0) 编辑