摘要: 作业①: 题目:熟练掌握 Selenium 查找HTML元素、爬取Ajax网页数据、等待HTML元素等内容。使用Selenium框架爬取京东商城某类商品信息及图片。 候选网站:京东网,关键词自由选择。 输出信息: mNo mMark mPrice mNote mFile 000001 三星Galax 阅读全文
posted @ 2021-11-26 19:44 R-zhang 阅读(86) 评论(0) 推荐(0) 编辑
摘要: 作业①: 题目:熟练掌握scrapy中Item、Pipeline数据的序列化输出方法;用Scrapy+Xpath+MySQL数据库存储技术路线爬取当当网站图书数据。 候选网站:当当图书网 ,关键词自由选择。 完整代码:码云作业1 1.解题过程: 1.1 items.py部分: class BookI 阅读全文
posted @ 2021-11-11 18:54 R-zhang 阅读(73) 评论(0) 推荐(0) 编辑
摘要: 作业①: 题目:指定一个网站爬取这个网站中的所有的所有图片,例如中国气象网分别使用单线程和多线程的方式爬取。(限定爬取图片为学号后3位) 输出信息:将下载的Url信息在控制台输出,并将下载的图片存储在images子文件中,并给出截图。 完整代码:码云作业1单线程 码云作业1多线程 1.解题过程: 1 阅读全文
posted @ 2021-10-31 11:48 R-zhang 阅读(60) 评论(0) 推荐(0) 编辑
摘要: 作业①: 题目:在中国气象网爬取给定城市集的7日天气预报,并保存在数据库中。输出信息如下: 序号 地区 日期 天气 温度 1 北京 7日(今天) 晴间多云 31℃/17℃ 2 北京 8日(明天) 多云转晴 34℃/20℃ 3 北京 9日(后天) 晴转多云 36℃/22℃ 4 …… …… …… …… 阅读全文
posted @ 2021-10-14 21:34 R-zhang 阅读(75) 评论(0) 推荐(0) 编辑
摘要: 作业①: 题目:要求用urllib和re库方法定向爬取给定网址2020中国最好学科排名的数据。输出信息如下: 2020排名 全部层次 学校类型 总分 1 前2% 中国人民大学 1069.0 2 …… …… …… 1.解题过程: 1.1:获取网页 url="https://www.shanghaira 阅读全文
posted @ 2021-09-29 22:22 R-zhang 阅读(65) 评论(0) 推荐(0) 编辑
摘要: 自我介绍: 031904139;我是张睿;我的爱好是阅读;我最喜欢荔枝肉(玫瑰二楼);白月光与朱砂痣;努力努力。 阅读全文
posted @ 2021-09-17 16:05 R-zhang 阅读(30) 评论(0) 推荐(0) 编辑