数据采集与融合技术-第一次大作业

作业①

  • 1.1作业内容

  • 1.2代码及运行结果

    • 1.2.1码云链接: 作业1_1
    • 1.2.2运行结果:
  • 1.3心得体会

    • 本次作业一用的是与实例1.9爬取学生信息相同的方法,难度不大,只要使用正则表达式search方法逐个匹配即可。写完后发现代码过于繁琐,使用findall也许会更加简便。


作业②

  • 2.1作业内容

    • 要求:用requests和Beautiful Soup库方法设计爬取(https://datacenter.mee.gov.cn/aqiweb2/) AQI实时报。
    • 输出信息:
      序号 城市 AQI PM2.5 SO2 No2 Co 首要污染物
      1 北京 55 6 5 1.0 225 -
      2 ~ ~ ~ ~ ~ ~ ~
  • 2.2代码及运行结果

    • 2.2.1码云链接: 作业1_2
    • 2.2.2使用浏览器的开发者工具查看源代码



    • 2.2.3爬取未处理的数据




      输出后发现数据中有特殊符号



    • 2.2.4对数据进行处理



    • 2.2.5运行结果:
  • 2.3心得体会

    • 写代码前先使用开发者工具分析文件有利于理解数据的格式
    • 爬取页面后可以保存到本地文件并print文件内容做进一步的分析,有时会发现输出的内容与在网页中看到的格式不同。
    • 使用‘utf-8’编码会出现错误,改为‘gbk’。


作业③

  • 3.1作业内容

    • 要求:使用urllib和requests爬取(http://news.fzu.edu.cn/),并爬取该网站下的所有图片.
    • 输出信息:将网页内的所有图片文件保存在一个文件夹中
  • 3.2代码及运行结果

    • 3.2.1码云链接: 作业1_3
    • 3.2.2正则表达式匹配图片路径



    • 3.2.3将图片下载到本地文件夹



    • 3.2.4运行结果:
  • 3.3心得体会

    • 在访问图片网页时提示错误的url,最后发现在爬取到的src中要添加完整的服务器路径,而不是只添加”http://“。
posted @ 2021-10-01 18:18  暴走小颗颗  阅读(14)  评论(0编辑  收藏  举报