博客1

作业1：

用requests和BeautifulSoup库方法定向爬取给定网址（http://www.shanghairanking.cn/rankings/bcur/2020 ）的数据，屏幕打印爬取的大学排名信息。

完整代码以及运行结果

心得体会：

学会了使用BeautifulSoup的常用方法。

作业2：

用requests和re库方法设计某个商城（自已选择）商品比价定向爬虫，爬取该商城，以关键词“书包”搜索页面的数据，爬取商品名称和价格。

完整代码以及运行结果

心得体会：

在数据提取阶段，我设计并优化了正则表达式，使其能同时匹配 title 或 alt 属性，从而更准确地获取商品名。同时，对价格部分进行了容错处理，以适应网页结构中可能存在的空格或小数。通过这次实验，我加深了对正则表达式的理解。

作业3：

爬取一个给定网页（https://news.fzu.edu.cn/yxfd.htm）或者自选网页的所有JPEG、JPG或PNG格式图片文件

输出信息：将自选网页内的所有JPEG、JPG或PNG格式文件保存在一个文件夹中

完整代码以及运行结果

心得体会：

我主要使用了 urllib.request 来获取网页内容，用正则表达式匹配出所有 .jpg、.jpeg、.png 格式的图片地址，并自动下载到本地文件夹中。通过这次任务我对实际应用正则表达式有了更好的理解。

posted @ 2025-10-26 14:59 woshinida 阅读(9) 评论(0) 收藏举报

刷新页面返回顶部