摘要: 数据挖掘第五次实践 作业一 京东信息爬取实验 作业内容 要求:熟练掌握 Selenium 查找HTML元素、爬取Ajax网页数据、等待HTML元素等内容。 使用Selenium框架爬取京东商城某类商品信息及图片。 候选网站:http://www.jd.com/ 关键词:学生自由选择 实践过程 复现s 阅读全文
posted @ 2021-11-25 17:14 cowhorse 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 作业一 当当图书爬取实验 作业内容 要求:熟练掌握 scrapy 中 Item、Pipeline 数据的序列化输出方法; Scrapy+Xpath+MySQL数据库存储技术路线爬取当当网站图书数据 候选网站:http://www.dangdang.com/ 关键词:学生自由选择 实验步骤 1.先创建 阅读全文
posted @ 2021-11-11 17:20 cowhorse 阅读(12) 评论(0) 推荐(0) 编辑
摘要: 作业① 要求:# 指定一个网站,爬取这个网站中的所有的所有图片,例如中国气象网(http://www.weather.com.cn)。分别使用单线程和多线程的方式爬取。(限定爬取图片数量为学号后3位)# 输出信息:# 将下载的Url信息在控制台输出,并将下载的图片存储在images子文件夹中,并给出 阅读全文
posted @ 2021-10-28 16:43 cowhorse 阅读(21) 评论(0) 推荐(0) 编辑
摘要: 作业① 1.1作业内容 要求:在中国气象网(http://www.weather.com.cn)给定城市集的7日天气预报,并保存在 数据库 序号地区日期天气信息温度 1 北京 7日(今天) 晴间多云,北部山区有阵雨或雷阵雨转晴转多云 31℃/17℃ 2 北京 8日(明天) 多云转晴,北部地区有分散阵 阅读全文
posted @ 2021-10-14 18:49 cowhorse 阅读(24) 评论(0) 推荐(0) 编辑
摘要: 一、作业一 要求:使用用urllib和re库方法定向爬取给定网址中国最好学科排名(计算机科学与技术)的数据。 输出形式: 2020排名全部层次学校类型总分 1 前2% 中国人民大学 1069.0 2 .... ........... ...... 作业一实现如下: 1.1 使用urllib.requ 阅读全文
posted @ 2021-09-29 21:39 cowhorse 阅读(31) 评论(0) 推荐(0) 编辑
摘要: 自我介绍###学号:031904125,我的名字叫王欢,我最喜欢的食物是学校玫瑰园二楼的杨国福麻辣烫还有永嘉天地的KFC,喜欢端游,电影,喜欢听周杰伦的作品,喜欢出去旅行, 思考:步入大三之后越发感觉对自己未来的人生充满迷茫,因为很快在我面前就出现十字路口,我该如何做出选择,该如何面对未来的生活,这 阅读全文
posted @ 2021-09-15 10:53 cowhorse 阅读(16) 评论(0) 推荐(0) 编辑