作业一

作业①

用requests和BeautifulSoup库方法定向爬取给定网址（http://www.shanghairanking.cn/rankings/bcur/2020 ）的数据，屏幕打印爬取的大学排名信息。

　　 2.心得体会

有些网站实际编码可能与声明编码不一致，所以用apparent_encoding自动检测是最合适的，在对院校名称爬取时会附带双一流985等，通过.split('\n')[0]只提取名称即可。这是一个较为通用的爬取模板。

作业②

　　 2.心得体会

发现在爬取动态加载页面时requests和re库没办法直接根据网页爬到有效信息，所以先在终端贴出源码，然后再根据源码的格式写正则表达式，爬取模板大差不差，主要的难点还是在正则表达式上。

作业③

　　2.心得体会

先爬出网址路径，然后根据路径下载图片保存到本地即可

posted @ 2025-10-26 15:19 缪阿阅读(9) 评论(0) 收藏举报

刷新页面返回顶部

miu-a