数据采集与融合技术-第二次大作业

作业①

  • 1.1作业内容

    • 要求:在中国气象网(http://www.weather.com.cn)给定城市集的7日天气预报,并保存在数据库。
    • 输出信息:
      序号 地区 日期 天气信息 温度
      1 北京 7日(今天) 晴间多云,北部山区有阵雨或雷阵雨转晴转多云 31℃/17℃
      2 北京 8日(明天) 多云转晴,北部地区有分散阵雨或雷阵雨转晴 34℃/20℃
      3 北京 9日(后台) 晴转多云 36℃/22℃
      4 北京 10日(周六) 阴转阵雨 30℃/19℃
      5 北京 11日(周日) 阵雨 27℃/18℃
      6...
  • 1.2代码及实验步骤

    • 1.2.1码云链接: 作业2_1

    • 1.2.2实验步骤:
      1、观察url,发现url以/地区代码/.shtml结尾。



      2、获取所需地区的代码。



      3、发送请求获取html



      4、分析html



      5、爬取信息



      6、将爬取的信息存入数据库


    • 1.2.3运行结果:

  • 1.3心得体会

    • 学会了将数据保存至数据库


作业②

  • 2.1作业内容

    • 要求:用requests和BeautifulSoup库方法定向爬取股票相关信息。
    • 输出信息:
      序号 股票代码 股票名称 最新报价 涨跌幅 涨跌额 成交量 成交额 振幅 最高 最低 今开 昨收
      1 688093 N世华 28.47 62.22% 10.92 26.13万 7.6亿 22.34 32.0 28.08 30.2 17.55
      2......
  • 2.2代码及实验步骤

    • 2.2.1码云链接: 作业2_2

    • 2.2.2实验步骤
      1、使用F12开发者工具,找到包含股票信息的包



      2、分析URL并适当更改参数



      3、更改后的参数如下



      4、爬取信息



      5、分析html



      6、发现同一支股票的信息在一个字典内,所以将股票信息进行分割(因为初始的url设置了参数,所以html的内容都是我们需要的信息,因此不需要使用re库或bs4)



      7、将分割后的信息直接插入DataFrame,并删除分割出的无效信息


    • 2.2.3运行结果:

  • 2.3心得体会

    • 通过这次的实验我学会了利用F12开发者工具分析并进行抓包
    • 学会了观察url的请求参数,并进行修改


作业③

  • 3.1作业内容

    • 要求:爬取中国大学2021主榜 https://www.shanghairanking.cn/rankings/bcur/2021
      所有院校信息,并存储在数据库中,同时将浏览器F12调试分析的过程录制Gif加入至博客中。
    • 输出信息:
      排名 学校 总分
      1 清华大学 969.2
  • 3.2代码及实验步骤

    • 3.2.1码云链接: 作业2_3

    • 3.2.2实验步骤
      1、使用F12开发者工具,找到包含股票信息的包




      2、正则匹配



      3、数据库存储



      4、检测数据中是否有空值


    • 3.2.4运行结果:

  • 3.3心得体会

    • 对于使用F12开发者工具进行抓包更加的熟练
posted @ 2021-10-17 13:12  暴走小颗颗  阅读(28)  评论(0编辑  收藏  举报