数据采集第四次作业

作业1 ：

1、实验内容

要求：

熟练掌握 scrapy 中 Item、Pipeline 数据的序列化输出方法；Scrapy+Xpath+MySQL数据库存储技术路线爬取当当网站图书数据
候选网站：http://search.dangdang.com/?key=python&act=input

输出信息：

https://img2020.cnblogs.com/blog/1460147/202010/1460147-20201027122553458-671254945.png

运行结果

代码

https://gitee.com/x42bd82a1/fzu-data-acquisition-course/tree/master/4/1
同课件

2、心得

阅读课件10.4样例程序并复制粘贴。
“加深了 Pipeline Scrapy Xpath MySQL 的理解” 之类的套话

作业2：

1、实验内容

要求：

熟练掌握 scrapy 中 Item、Pipeline 数据的序列化输出方法；使用scrapy框架+Xpath+MySQL数据库存储技术路线爬取外汇网站数据。
候选网站：招商银行网：http://fx.cmbchina.com/hq/

输出信息：

Id	Currency	TSP	CSP	TBP	CBP	Time
1	港币	86.60	86.60	86.26	85.65	15：36：30
2......

运行结果

代码

https://gitee.com/x42bd82a1/fzu-data-acquisition-course/tree/master/4/2

2、心得

与之前无异，记得去空格之类的就行
“加深了 Pipeline Scrapy Xpath MySQL 的理解” 之类的套话

作业3：

1、实验内容

要求：

熟练掌握 Selenium 查找HTML元素、爬取Ajax网页数据、等待HTML元素等内容；使用Selenium框架+ MySQL数据库存储技术路线爬取“沪深A股”、“上证A股”、“深证A股”3个板块的股票数据信息。
候选网站：东方财富网：http://quote.eastmoney.com/center/gridlist.html#hs_a_board

输出信息：

序号	股票代码	股票名称	最新报价	涨跌幅	涨跌额	成交量	成交额	振幅	最高	最低	今开	昨收
1	688093	N世华	28.47	62.22%	10.92	26.13万	7.6亿	22.34	32.0	28.08	30.2	17.55
2......

运行结果

代码

https://gitee.com/x42bd82a1/fzu-data-acquisition-course/tree/master/4/3

2、心得

将数据库改为MySQL，其余与之前的实验无异
每列对应一个 /tbody/tr ，简单将其字符切分可得单元格内容，自行目测每列对应含义
“加深了 Selenium Ajax MySQL 的理解” 之类的套话

posted @ 2021-11-23 21:34 0x42bd82a1 阅读(47) 评论(0) 收藏举报

刷新页面返回顶部

0x42bd82a1

数据采集第四次作业

数据采集第四次作业

作业1 ：

1、实验内容

要求：

输出信息：

运行结果

代码

2、心得

作业2：

1、实验内容

要求：

输出信息：

运行结果

代码

2、心得

作业3：

1、实验内容

要求：

输出信息：

运行结果

代码

2、心得

公告