数据采集第四次作业

数据采集第四次作业

作业1 :

1、实验内容

要求:

熟练掌握 scrapy 中 Item、Pipeline 数据的序列化输出方法;Scrapy+Xpath+MySQL数据库存储技术路线爬取当当网站图书数据
候选网站:http://search.dangdang.com/?key=python&act=input

输出信息:

https://img2020.cnblogs.com/blog/1460147/202010/1460147-20201027122553458-671254945.png

运行结果

代码

https://gitee.com/x42bd82a1/fzu-data-acquisition-course/tree/master/4/1
同课件

2、心得

阅读课件10.4样例程序并复制粘贴。
“加深了 Pipeline Scrapy Xpath MySQL 的理解” 之类的套话

作业2:

1、实验内容

要求:

熟练掌握 scrapy 中 Item、Pipeline 数据的序列化输出方法;使用scrapy框架+Xpath+MySQL数据库存储技术路线爬取外汇网站数据。
候选网站:招商银行网:http://fx.cmbchina.com/hq/

输出信息:

Id Currency TSP CSP TBP CBP Time
1 港币 86.60 86.60 86.26 85.65 15:36:30
2......

运行结果

代码

https://gitee.com/x42bd82a1/fzu-data-acquisition-course/tree/master/4/2

2、心得

与之前无异,记得去空格之类的就行
“加深了 Pipeline Scrapy Xpath MySQL 的理解” 之类的套话

作业3:

1、实验内容

要求:

熟练掌握 Selenium 查找HTML元素、爬取Ajax网页数据、等待HTML元素等内容;使用Selenium框架+ MySQL数据库存储技术路线爬取“沪深A股”、“上证A股”、“深证A股”3个板块的股票数据信息。
候选网站:东方财富网:http://quote.eastmoney.com/center/gridlist.html#hs_a_board

输出信息:

序号 股票代码 股票名称 最新报价 涨跌幅 涨跌额 成交量 成交额 振幅 最高 最低 今开 昨收
1 688093 N世华 28.47 62.22% 10.92 26.13万 7.6亿 22.34 32.0 28.08 30.2 17.55
2......

运行结果

代码

https://gitee.com/x42bd82a1/fzu-data-acquisition-course/tree/master/4/3

2、心得

将数据库改为MySQL,其余与之前的实验无异
每列对应一个 /tbody/tr ,简单将其字符切分可得单元格内容,自行目测每列对应含义
“加深了 Selenium Ajax MySQL 的理解” 之类的套话

posted @ 2021-11-23 21:34  0x42bd82a1  阅读(47)  评论(0)    收藏  举报