102302143郑泽雄第一次作业

1.用requests和BeautifulSoup库方法爬取大学排名信息。

由图可知，所需信息在table的tbody下的标签，然后逐一排查寻找需要的5个标签即可。

从这道题我掌握了如何使用正则化表达式匹配中文序列，当我想要爬取所有页面的信息时，这个网页的翻页无法用简单的for循环，用requests和BeautifulSoup库不能实现翻页。

爬取网站选择了反爬机制较差的当当网。在浏览页面的时候，我发现了标签和价格都在

块，用最简单的正则表达式抓取，如果有 title 或 price 就加入结果列表。

除了网站比较不好找，标签的爬取还是比较简单的。

爬取的时候发现图片基本以 jpg/jpeg/png 结尾，匹配 src 属性中直接以 jpg/jpeg/png 结尾的 URL。

这个网页还是比较容易爬取的，基本上没遇到什么困难。

posted @ 2025-10-24 17:35 长草神熊阅读(29) 评论(0) 收藏举报

刷新页面返回顶部