课程:《Python程序设计》
班级:1931
姓名:程心雨
学号:20193111
实验教师:王志强
实验日期:2020年4月12日
必修/选修: 公选课

1.实验内容

Python综合应用:爬虫、数据处理、可视化、机器学习、神经网络、游戏、网络安全等。

2. 实验过程及结果

  • 爬取信息网站是一个图片类网站:https://www.vmgirls.com/image/index.php?dir=/2020/01
  • 设url1变量,将页面链接赋值给变量,然后调用requests的get发送网络请求
  •  

     

     

     

  • 创建文件夹“加点糖”,防止本机中的图片数据被覆盖。

     

     

  • 在页面中用打开监视器,将页面的HTML调出来,之后找到图片的那部分标签

     

    ,待一切工作准备就绪后,开始爬取信息。

  • 结果如图:

 

 

 

 

3. 实验过程中遇到的问题和解决过程

  • 分析请求过程无法获得:我之前按着教程,老老实实按着F12,然而浏览器根本就不理我。我去网上查阅相关的资料,发现我得去下载一个chore。然后下载了也不是万事大吉的,按F12,仍然是毫无响应。各大网站的教程都是F12,百般无奈下,我只得老老实实自己找,也算在某处找到了这个功能。
  • 如图所示:

     


    对于这个问题,我知道自己能力有限,只好另寻他站了。大型网站肯定不会容许乱来,我选择了个小网站继续爬

  • 请求拒绝:请求拒绝后,我从浏览器搞到了网页的头文件,因为之前爬大网站数据拒绝多次,我按照某个朋友的建议,一个不够,多个来凑。不过最后实践证明,一个也是够的。

4. 结课总结:

  • 总的来说,还是很高兴,这门课终于告一段落了。这门公选课并没有我想象中那么简单,尤其是在下载那么多软件的时候。比如说在最初下载pycharm和想方设法把代码git到码云上,这几乎花费了我近九个小时的时间,翻阅了各大网站的资料,这才解决了这个问题。
  • 此外呢,在课程上,感觉开始都是已自学为主,观看视频啊,阅读书籍啊,或者从网上查找资料。在开始还是比较不适应的,可能自学一门课还是比较新奇的(其实也没自学好的说)。在找资料的过程中,真的是比较痛苦的,尤其是不小心把浏览器关闭了,你找不到之前的信息了。过程是痛苦的,但结果还是不错的,一点一点把代码敲出来,看它能够在电脑上运行也是一种成功的喜悦。
  • 其实在交作业时限方面,虽说按时上交的确是好事,但是,后期的即学即交的模式,还真的挺磨人的,尤其是那些有彩蛋的作业面前。毕竟下一个软件,费时一个晚上还可能下不下来的说。而且我记得在做数据库的那道题时,电脑抽了,只得把自己程序在同学的电脑上远程运行,占了好大的便宜,不过还好及时上交了。
  • 怎么说呢,在过程中,苦乐参杂,不断的学习过程中,我自己也相应的学到了许多知识,获得了一定的技能(码字更快了)。在最后,感谢王老师的辛勤教学,各位助教学长的认真批阅以及来自各系同学的共同陪伴。这节课画上了完美的句号,但它的意义依旧留在我心中。完结撒花,感谢。

参考资料

  • 《零基础入门学习Python》
  • 部分网站资料

码云链接:https://gitee.com/python_programming/gitee/blob/ao/实验五%20爬虫.py

posted on 2020-06-07 09:51  顾谢  阅读(133)  评论(0编辑  收藏