小堆小堆 - 博客园

2025年12月22日

摘要：一、食材、菜谱数据库整理在组员爬取的生鲜商品信息和菜谱数据存在字段冗余、数值缺失、内容重复等问题，无法直接用于我们的项目。因此，我主要负责对这些原始数据进行系统化整理与清洗。具体工作包括： 1.字段规范化处理对不同来源的数据字段进行统一命名，例如保留商品名关键字，去除多余的修饰词，使我们页面上阅读全文

posted @ 2025-12-22 22:57 小堆小堆阅读(19) 评论(0) 推荐(0)

2025年12月8日

102302110高悦作业4

摘要：作业①:要求：使用Selenium框架+ MySQL数据库存储技术路线爬取“沪深A股”、“上证A股”、“深证A股”3个板块的股票数据信息。 1.代码以及实践过程 1.1 分析页面首先获取对应xpath（整个表格、对应每行每个股票、对应每列）通过分析，获得了核心的定位对象股票数据表格：//[@i 阅读全文

posted @ 2025-12-08 11:08 小堆小堆阅读(13) 评论(0) 推荐(0)

2025年11月21日

102302110高悦作业3

摘要：作业①: 要求：指定一个网站，爬取这个网站中的所有的所有图片，例如：中国气象网（http://www.weather.com.cn）。实现单线程和多线程的方式爬取。 –务必控制总页数（学号尾数2位）、总下载的图片数量（尾数后3位）等限制爬取的措施。 1.实现过程及代码 1.1 单线程 1.1.1获取阅读全文

posted @ 2025-11-21 01:07 小堆小堆阅读(18) 评论(0) 推荐(0)

2025年11月7日

102302110高悦作业2

摘要： •作业①:要求：在中国气象网（http://www.weather.com.cn）给定城市集的7日天气预报，并保存在数据库。 1.代码与过程查看相应位置的代码 from bs4 import BeautifulSoup from bs4 import UnicodeDammit import ur 阅读全文

posted @ 2025-11-07 16:29 小堆小堆阅读(11) 评论(0) 推荐(0)

2025年10月25日

102302110高悦作业1

摘要： • 作业①:用requests和BeautifulSoup库方法定向爬取给定网址（http://www.shanghairanking.cn/rankings/bcur/2020 ）的数据，屏幕打印爬取的大学排名信息。 1.代码与实验结果首先打开网页，查看网页的源代码，找出并分析所要爬取内容的ht 阅读全文

posted @ 2025-10-25 19:50 小堆小堆阅读(13) 评论(0) 推荐(0)

augtrqv

公告