数据采集第一次作业
第一次作业
作业1:
1、实验内容
---要求:用urllib和re库方法定向爬取给定网址(https://www.shanghairanking.cn/rankings/bcsr/2020/0812 )的数据。
---输出信息:
---运行结果截图:
---运行代码:
码云链接:https://gitee.com/huang-weiting/data-acquisition/blob/master/%E4%BD%9C%E4%B8%9A1/1.py
2、心得:
(1)本次实验主要是对正则表达式的运用,由于对标签正则表达式的不熟练使用,我是从结果出发查询的正则表达式,比如:
“前2%”可知,结果是由一个中文、一个数字和一个%组成的,从而得到正则表达式:
(2)关于学校名称的链接寻址,
可以直接书写正则表达式,而不需要从标签下查询
作业2:
1、实验内容
---要求:用requests和Beautiful Soup库方法设计爬取https://datacenter.mee.gov.cn/aqiweb2/ AQI实时报。
---输出信息:
---运行结果截图:
---运行代码:
码云链接:https://gitee.com/huang-weiting/data-acquisition/blob/master/作业1/2.py
2、心得
(1)本次实验是对BeautifulSoup的运用,查询下的子标签,使用soup.find().children
(2)Isinstance(tr,bs4.element.Tag)判断tr是否为数据类型bs4.element.Tag,是则返回True,否则返回False
(3)格式化输出结果,使得输出结果排版清晰
作业3:
1、实验内容
---要求:使用urllib和requests和re爬取一个给定网页(http://news.fzu.edu.cn/)爬取该网站下的所有图片
---输出信息:将自选网页内的所有jpg文件保存在一个文件夹中
---运行结果截图:
---运行代码:
码云链接:https://gitee.com/huang-weiting/data-acquisition/blob/master/作业1/3.py
2、心得
(1)本次实验考察对正则表达式的正确使用,
通过对图片源代码的分析,获得其正则表达式
(2)使用urllib.request.urlretrieve(pic, filename=filename)将URL表示的网络对象复制到本地文件,具体函数信息参考python document