会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
atrue
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
···
26
下一页
2025年2月10日
25.2.10(玩一天)
摘要: 同学聚会玩一天
阅读全文
posted @ 2025-02-10 17:06 a_true
阅读(7)
评论(0)
推荐(0)
2025年2月9日
25.2.9(爬虫学习5)
摘要: 五、爬虫常见问题及解决方案 1. 网页反爬机制 有些网站不允许爬虫访问,通常会通过检测请求头或IP地址来防止爬虫访问.为了绕过这种限制,我们可以伪装成正常用户. 解决方法:添加请求头 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; W
阅读全文
posted @ 2025-02-09 11:06 a_true
阅读(30)
评论(0)
推荐(0)
2025年2月8日
25.2.8(爬虫学习4)
摘要: 四、爬虫的分类1. 简单爬虫(静态网页)如果网页是静态的,所有的数据直接在HTML代码中呈现,这种网页最容易爬取.以上示例就是一个典型的静态网页爬虫. 2. 动态爬虫(处理JavaScript生成的内容)有些网页的数据不是直接在HTML中,而是通过JavaScript动态生成的.这类网页需要更复杂的
阅读全文
posted @ 2025-02-08 22:02 a_true
阅读(12)
评论(0)
推荐(0)
2025年2月7日
25.2.7(爬虫学习3)
摘要: 三、简单爬虫示例 接下来,我们会编写一个简单的爬虫,从一个网页上获取数据. 1. 获取网页内容 第一步是使用 requests 库来获取网页的内容.我们以获取百度首页为例. import requests # 发送请求获取网页内容 url = 'https://www.baidu.com' resp
阅读全文
posted @ 2025-02-07 17:12 a_true
阅读(11)
评论(0)
推荐(0)
2025年2月6日
25.2.6(爬虫学习2)
摘要: 二、常用爬虫库 在Python中,有两个非常流行的库用于爬虫开发: requests:用于发送网络请求,获取网页内容. BeautifulSoup:用于解析网页内容,提取需要的数据. 1. 安装库 首先,你需要安装这两个库.在命令行中执行以下命令: pip install requests beau
阅读全文
posted @ 2025-02-06 21:24 a_true
阅读(16)
评论(0)
推荐(0)
2025年2月5日
25.2.5(玩一天)
摘要: 去了赵县赵州桥
阅读全文
posted @ 2025-02-05 19:37 a_true
阅读(23)
评论(0)
推荐(0)
2025年2月4日
25.2.4(同学聚会)
摘要: 同学聚会玩一天
阅读全文
posted @ 2025-02-04 22:07 a_true
阅读(7)
评论(0)
推荐(0)
2025年2月3日
25.2.3(爬虫学习1)
摘要: 爬虫是指通过编程自动从网页上获取信息的技术.想象你平时打开网页,右键点击 “查看源代码”,那些你看到的HTML代码就是网页的结构,而爬虫就像一位帮你阅读这些网页内容的“机器人”. 一、爬虫的基本流程 发送请求:爬虫向目标网页发送请求,获取网页内容. 解析网页:从返回的网页内容中提取你需要的信息. 保
阅读全文
posted @ 2025-02-03 22:56 a_true
阅读(8)
评论(0)
推荐(0)
2025年2月2日
25.2.2(玩一天)
摘要: 去了革命圣地西柏坡
阅读全文
posted @ 2025-02-02 20:42 a_true
阅读(8)
评论(0)
推荐(0)
2025年2月1日
25.2.1(学习总结)
摘要: 通过对 Hadoop 核心技术的学习,我不仅掌握了大数据处理的基本原理和方法,还学会了如何使用 Hadoop 生态系统中的各种工具和技术来解决实际问题。 在学习过程中,我深刻体会到了分布式系统的强大之处。Hadoop 通过将大规模数据集分布存储在多个节点上,并利用 MapReduce 编程模型进行并
阅读全文
posted @ 2025-02-01 21:08 a_true
阅读(9)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
···
26
下一页
公告