数据采集第二次作业

数据采集第二次作业

作业1:

1、实验内容

要求:

在中国气象网(http://www.weather.com.cn)给定城市集的7日天气预报,并保存在数据库。

输出信息:

序号地区日期天气信息温度
1 北京7日(今天) 晴间多云,北部山区有阵雨或雷阵雨转晴转多云 31℃/17℃  
2 北京8日(明天) 多云转晴,北部地区有分散阵雨或雷阵雨转晴 34℃/20℃  
3 北京9日(后台) 晴转多云 36℃/22℃  
4 北京10日(周六) 阴转阵雨 30℃/19℃  
5 北京11日(周日) 阵雨 27℃/18℃  
6 ...      

运行结果

 

 

代码如下:

https://gitee.com/kilig-seven/crawl_project/blob/master/%E7%AC%AC%E4%BA%8C%E6%AC%A1%E5%A4%A7%E4%BD%9C%E4%B8%9A/weather%20clawer.py

 

作业2:

1、实验内容

要求:

用requests和自选提取信息方法定向爬取股票相关信息,并存储在数据库中。

输出信息:

序号股票代码股票名称最新报价涨跌幅涨跌额成交量成交额振幅最高最低今开昨收
1 688093 N世华 28.47 62.22% 10.92 26.13万 7.6亿 22.3% 32.0 28.08 30.2 17.55
2 ...                      

运行结果

代码:

  https://gitee.com/kilig-seven/crawl_project/blob/master/%E7%AC%AC%E4%BA%8C%E6%AC%A1%E5%A4%A7%E4%BD%9C%E4%B8%9A/weather%20clawer.py

 

 心得:

  熟悉了数据库的基本操作手法,与打开数据库文件的必要手段。当数据爬取以json格式存储时,数据以列表的方式存储,只需要知道各个数据的所在位置就可以轻松进行爬取。

作业3:

1、实验内容

要求:

爬取中国大学2021主榜(https://www.shanghairanking.cn/rankings/bcur/2021) 所有院校信息,并存储在数据库中,同时将浏览器F12调试分析的过程录制Gif加入至博客中。

输出信息:

排名学校总分
1 清华大学 969.2
2 ...  

运行结果:

 

代码:

https://gitee.com/kilig-seven/crawl_project/blob/master/%E7%AC%AC%E4%BA%8C%E6%AC%A1%E5%A4%A7%E4%BD%9C%E4%B8%9A/University.py

心得:

  在创建数据库时,由于创建语句在双引号内,所以中文字符不会被编译器所报错,在创建table时要格外注意,否则就有可能出现难以找到的报错。

GIF:

  

 

posted @ 2021-10-25 22:12  Kilig_7  阅读(9)  评论(0编辑  收藏  举报