作业①:
要求
熟练掌握 Selenium 查找HTML元素、爬取Ajax网页数据、等待HTML元素等内容。
使用Selenium框架爬取京东商城某类商品信息及图片。
候选网站
http://www.jd.com/
关键词
自由选择
输出信息
MYSQL的输出信息如下:

代码复现
爬取图片信息

其他信息

翻页处理

结果

感悟总结
(1)学习了src和data-lazy-img的图片url处理

作业②
要求
熟练掌握 Selenium 查找HTML元素、实现用户模拟登录、爬取Ajax网页数据、等待
HTML元素等内容。
使用Selenium框架+MySQL爬取中国mooc网课程资源信息(课程号、课程名称、教学
进度、课程状态,课程图片地址),同时存储图片到本地项目根目录下的imgs文件夹
中,图片的名称用课程名来存储。
候选网站
中国mooc网:https://www.icourse163.org
输出信息

实验步骤
(1)创建数据库、表

(2)进入慕课网后,依次点击登录->我的课程,进入课程页面
-------------->

由于这里使用二维码登录,所以设置浏览器页面可见

(3)爬取信息并存入数据库

(4)图片下载保存

(5)页面滑动(虽然在此处没有用处)

结果

思想感悟
(1)在模拟登录点击操作时,出现错误
selenium.common.exceptions.ElementClickInterceptedException: Message: element click intercepted: Element <buttononclick="kwdGoSearch($('#kwdselectid').val());">... is not clickable at point (660, 229). Other element would receive the click:


百度查询原因:应该是元素定位相互覆盖。
解决方法:

(2)尝试、学会了使用xpath插件进行xpath信息提取语句的调试;
(3)学会了使用模拟浏览器将页面滚动到底部;
(4)熟悉了Selenium 查找HTML元素、实现用户模拟登录、爬取Ajax网页数据、等待HTML元素方法。

作业③
要求
理解Flume架构和关键特性,掌握使用Flume完成日志采集任务。
完成Flume日志采集实验
实验步骤
任务一:开通MapReduce服务

任务二:Python脚本生成测试数据

任务三:配置Kafka

任务四:安装Flume客户端

任务五:配置Flume采集数据

云资源释放

感悟总结
通过学习及操作Flume日志采集实验手册,大致掌握了Flume日志采集相关服务的使用以及XShell和XFTP的使用。

码云链接:https://gitee.com/jmssj/pythonProject/tree/master/第五次大作业

 posted on 2021-11-24 21:12  金木s  阅读(28)  评论(0编辑  收藏  举报