2024 年 3月 31 日随笔档案 - ssrheart

2024年3月31日

该文被密码保护。阅读全文

posted @ 2024-03-31 17:04 ssrheart 阅读(1) 评论(0) 推荐(0) 编辑

摘要： Python爬虫（1）介绍 Python爬虫是一种自动化获取互联网数据的技术，它通过编写程序实现自动访问网站并抓取所需的数据。爬虫是一种自动化获取互联网数据的技术，通过模拟浏览器行为，向目标网站发送请求并获取响应，然后解析响应中的数据。（2）爬虫的常用库（1）requests 用于发送HTT 阅读全文

posted @ 2024-03-31 17:04 ssrheart 阅读(2) 评论(0) 推荐(0) 编辑

requests模块

摘要： requests模块（1）GET请求（1）发送get请求 import requests url = "https://www.baidu.com/" # 发送请求获取响应数据 response = requests.get(url) 其中，一些常用的属性和方法包括： status_code: 阅读全文

posted @ 2024-03-31 17:04 ssrheart 阅读(7) 评论(0) 推荐(0) 编辑

BeatifulSoup

摘要： BeatifulSoup （1）介绍 Beautiful Soup是Python库，用于解析HTML和XML文档。它提供简单而强大的工具，帮助用户从网页中提取数据。通过查找元素、遍历文档树和处理编码问题，它简化了数据提取过程。适用于网页抓取、数据挖掘和分析等应用场景。 pip install bea 阅读全文

posted @ 2024-03-31 17:04 ssrheart 阅读(11) 评论(0) 推荐(0) 编辑

xpath

摘要： xpath （1）介绍可在XML中查找信息支持HTML的查找通过元素和属性进行导航 pip install lxml from lxml import etree # 将源码转化为能被XPath匹配的格式 selector = etree.HTML(源码) # 返回为一列表 res = sel 阅读全文

posted @ 2024-03-31 17:04 ssrheart 阅读(13) 评论(0) 推荐(0) 编辑

heart

无限进步

公告