作业①:
要求
熟练掌握 Selenium 查找HTML元素、爬取Ajax网页数据、等待HTML元素等内容。
使用Selenium框架爬取京东商城某类商品信息及图片。
候选网站
http://www.jd.com/
关键词
自由选择
输出信息
MYSQL的输出信息如下:
代码复现
爬取图片信息
其他信息
翻页处理
结果
感悟总结
(1)学习了src和data-lazy-img的图片url处理
作业②
要求
熟练掌握 Selenium 查找HTML元素、实现用户模拟登录、爬取Ajax网页数据、等待
HTML元素等内容。
使用Selenium框架+MySQL爬取中国mooc网课程资源信息(课程号、课程名称、教学
进度、课程状态,课程图片地址),同时存储图片到本地项目根目录下的imgs文件夹
中,图片的名称用课程名来存储。
候选网站
中国mooc网:https://www.icourse163.org
输出信息
实验步骤
(1)创建数据库、表
(2)进入慕课网后,依次点击登录->我的课程,进入课程页面
-------------->
由于这里使用二维码登录,所以设置浏览器页面可见
(3)爬取信息并存入数据库
(4)图片下载保存
(5)页面滑动(虽然在此处没有用处)
结果
思想感悟
(1)在模拟登录点击操作时,出现错误
selenium.common.exceptions.ElementClickInterceptedException: Message: element click intercepted: Element <buttononclick="kwdGoSearch($('#kwdselectid').val());">... is not clickable at point (660, 229). Other element would receive the click:
百度查询原因:应该是元素定位相互覆盖。
解决方法:

(2)尝试、学会了使用xpath插件进行xpath信息提取语句的调试;
(3)学会了使用模拟浏览器将页面滚动到底部;
(4)熟悉了Selenium 查找HTML元素、实现用户模拟登录、爬取Ajax网页数据、等待HTML元素方法。
作业③
要求
理解Flume架构和关键特性,掌握使用Flume完成日志采集任务。
完成Flume日志采集实验
实验步骤
任务一:开通MapReduce服务
任务二:Python脚本生成测试数据
任务三:配置Kafka
任务四:安装Flume客户端
任务五:配置Flume采集数据
云资源释放
感悟总结
通过学习及操作Flume日志采集实验手册,大致掌握了Flume日志采集相关服务的使用以及XShell和XFTP的使用。
码云链接:https://gitee.com/jmssj/pythonProject/tree/master/第五次大作业