20183413 2019-2020-2 《Python程序设计》实验4报告

课程：《Python程序设计》
班级：1834
姓名：李杰
学号：20183413
实验教师：王志强
实验日期：2020年6月10日
必修/选修：公选课

1.实验内容

使用爬虫获取某网站的信息。

2.实验过程及结果

我本次实验打算利用爬虫爬上某个网站，在我试图使用requests库设计程序时，却发现我的电脑无法安装requests库，我用的是python3.8，这一版本自带了pip，但是我的电脑依然无法通过pip来下载安装外部网络库，我在网上找了几种解决方法，甚至是重新安装python都无济于事。所以我只能寄希望于python自带的urllib来完成实验，但是因为该库功能不及requests，以及没有安装bs4等网络库，具体实验效果会大打折扣，只能实现简单的功能。

首先调用urllib库的request模块，找一个网站的url，使用Request函数发送请求，随后使用urlopen函数打开网站，最后读取网站内容并输出。打开时遇到403错误，从该网站处获取头部信息，请求headers处理，即可成功爬取该网站信息。还可以调用urllib库中的其他函数获取状态码、头部信息等，还可以将获取的网站内容下载至电脑。

from urllib import request


headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362'}
url = ('https://xgxpczx.30edu.com.cn/')
req = request.Request(url, headers=headers)
response = request.urlopen(req)
print(response.read().decode('utf-8'))
print('状态码：',response.getcode())
print('url地址：',response.geturl())
print('头部信息：',response.getheaders())
request.urlretrieve(url, 'gethtml.html')

3.实验过程中遇到的问题及解决过程

问题：始终无法安装外部网络库

解决方案：使用自带的urllib进行实验

总结

时间过得很快，刚刚接触python的我们已经结束了一个学期的课程学习。对我来说，python即熟悉又陌生，熟悉是因为大一下学期学习了C语言，那个时候我花了很多时间去学习这门课程，通过计算机实习，我对C语言和程序设计有了更浓厚的兴趣和更深的理解，对程序设计的好奇也是我选择这门课的主要原因；陌生是因为python和C语言又有很多不同的地方，比如一个是面向对象，一个是面向过程。通过一个学期的学习，python给我的印象是简便、功能强大，python语言中有许多函数我们可以直接调用，利用这些函数，我们可以仅用一两行代码就实现C语言中几十行代码才能完成的功能，另外，就我目前学到的知识来说，同样是一个学期的学习，我们学到的C语言的知识还是十分基础的，实际应用起来还是比较费劲；但是我们学到的python的知识就更加丰富了，我们已经可以使用它来爬网站、写游戏了。python的应用范围也更加广，在以后的实际应用中也用的更多，比如这段时间的大创，里面项目中的程序大部分都是使用python编写的，所以说学号python十分受用。这一学期的课王老师讲的很好，我们学的也不错，但是我们不能满足于此，要在以后的时间里不断学习、不断练习，这样才能真正的掌握好这一门语言。对于这门课的建议，我觉得老师可以举行一些有意思的比赛，比如让同学们设计一款游戏，老师限定游戏的类型，给出要求，看看谁能把游戏做的更好，或者是让同学们同时爬某个网站的信息，看看谁爬的最快，最全。

posted @ 2020-06-14 01:27 是老李啊阅读(191) 评论(0) 收藏举报

刷新页面返回顶部

是老李啊

20183413 2019-2020-2 《Python程序设计》实验4报告

20183413 2019-2020-2 《Python程序设计》实验4报告

1.实验内容

2.实验过程及结果

3.实验过程中遇到的问题及解决过程

总结

公告