20204218 实验四《Python程序设计》实验报告


课程:《Python程序设计》
班级: 2042
姓名: 施鸽
学号:20204218
实验教师:王志强
实验日期:2022年5月27日
必修/选修: 公选课

一、实验内容

本次综合实验我选择了网络爬虫——爬取豆瓣电影排行榜top250,并将爬取得到的信息写入文档(在学习爬取网页标题的基础上,尝试爬取页面指定内容)

二、实验设计

(一)实验目的

爬取网页相关电影排名、电影名称、电影别名、导演姓名、上映年份、制作国家/地区等内容。

(二)实验方法

导入os、re等第三方库、使用request爬取网页、应用正则表达式

(三)实验步骤

1.生成URL

2.分析网页标签,定位爬取信息

3.请求网页request

4.存储信息至文档中

三、实验实现过程

1.获取网页地址,也就是URL,豆瓣电影排行榜的网页地址在下方,然后发出请求并等待响应response。

https://movie.douban.com/top250?start=;

2.定义一个类名MovieTop,然后在类中定义好获取页面的方法和初始化方法:

 3.使用正则表达式进行解析;

4.使用循环语句。原因:豆瓣影片榜网页中共有10个页面,每个页面有25个影片。这意味着我们需要解析10个页面,用for循环来实现。

 5.储存信息,写入文件的步骤较为简单,之前在实验三中实现过。只需利用os模块和file操作。

四、实验结果

在华为云服务器上运行代码。(源代码已经发给课代表)

将代码通过winSCP上传至新建的文件sg,在putty上登录服务器进行运行.

 五、遇见问题及解决

1.一开始无法安装request库。后面通过更新pip得到解决。

2.正则表达式仅见老师上课使用过,自己未真正掌握。通过在B站上跟着视频教学一点一点打出来。

六、参考资料

1.https://blog.csdn.net/shanzhizi/article/details/50903748(学习request库的运用)

2.https://www.bilibili.com/video/BV1da4y1p7iZ?spm_id_from=333.337.search-card.all.click(学习正则表达式)

3.https://blog.csdn.net/qq_37756991/article/details/108265145(学习爬取豆瓣源代码)

4.https://blog.csdn.net/weixin_44127168/article/details/107060676?ops_request_misc=&request_id=&biz_id=102&utm_term=%E7%88%AC%E5%8F%96%E8%B1%86%E7%93%A3%E7%94%B5%E5%BD%B1top250&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-8-107060676.142^v11^control,157^v12^new_style&spm=1018.2226.3001.4187(Python爬虫 豆瓣电影榜信息的爬取)

七、课程总结

         一个学期的Python课结课了,写下一点感想来记录一下某计算机小白在Python课上的心路历程。初进Python的大门还是很激动忐忑的,因为自己对编程没有任何了解,很担心自己学不会、做不好。为什么选这门课呢,是因为上个暑假在家乡疫情期间做大数据志愿者时,部门主任利用Python爬取网格数据极大地提高了流调效率,那时候真的感受到了技术的魅力。所以上学期末选课时,在自然科学类学分已修满的情况下我还是毫不犹豫地选择了Python程序设计。
        从搭建集成开发环境到安装各种插件,从学习序列的应用到函数的创建和调用,从socket通信到爬取网页标题。每一堂课、每一次实验都好像在冒险,不断接收新知识,学习新理论。特别是实验任务,让我又爱又恨,由于脑子不太够用,为了完成实验任务,总需要课后在网上各种搜索教学视频,一步一步的跟着视频实操。虽然有些代码能在csdn上、在教材上直接找到,但自己必须弄懂代码的每一个步骤,否则根本无法写出实验报告。过程很痛苦,但真正做完一个实验时,内心的成就感直接达到顶峰。另外,我发现知识都是融会贯通的,我和另一位同学基于Python完成了一次socket加密认证通信用来完成一次信息安全实验。即使12节课程结束,我的Python学习之路还有很长。多掌握一些技术,有备无患。“人生苦短,我用Python”,Python不仅是一项编程技术,还是对逻辑的绝佳锻炼,争取每一次都能用更简单的代码写出更好用的程序。
        何其有幸,得遇良师塾友。感谢费尽心思把课讲得通俗易懂的志强老师,感谢课下耐心回答我一些无脑问题的中国好同学,感谢那个没有敷衍每一次作业的自己。以后争取不辜负每一节Python课。

——2022.05.30

posted @ 2022-05-31 23:55  不知水桥  阅读(109)  评论(0编辑  收藏  举报