摘要: 作业① 1.1题目 完整代码 要求:熟练掌握 Selenium 查找HTML元素、爬取Ajax网页数据、等待HTML元素等内容。 使用Selenium框架爬取京东商城某类商品信息及图片。 输出信息: mNo mMark mPrice mNote mFile 000001 三星Galaxy 9199. 阅读全文
posted @ 2021-11-24 19:16 penguin02 阅读(46) 评论(0) 推荐(0) 编辑
摘要: 作业① 1.1题目 完整代码 要求:熟练掌握 scrapy 中 Item、Pipeline 数据的序列化输出方法; 使用Scrapy+Xpath+MySQL数据库存储技术路线爬取当当网站图书数据 1.2实现过程 1.2.1 观察html源代码 可以看到每一本书的全部信息存放在一个li标签中 接着查看 阅读全文
posted @ 2021-11-10 14:59 penguin02 阅读(51) 评论(0) 推荐(0) 编辑
摘要: 作业1 1.1题目 要求:指定一个网站,爬取这个网站中的所有的所有图片,例如中国气象网分别使用单线程和多线程的方式爬取。 输出信息:将下载的Url信息在控制台输出,并将下载的图片存储在images子文件中,并给出截图。 1.2实现过程 1.2.1 单线程爬取 完整代码 主函数部分逻辑为 if __n 阅读全文
posted @ 2021-10-31 11:03 penguin02 阅读(55) 评论(0) 推荐(1) 编辑
摘要: #[数据采集]实验二 一、作业① ###1 、作业内容 ####- 要求: 爬取在中国气象网给定城市集的7日天气预报,并保存在数据库中。 ####- 输出信息: Gitee完整代码链接 序号 地区 日期 天气信息 温度 1 北京 7日(今天) 晴间多云,北部山区有阵雨或雷阵雨转晴转多云 31℃/17 阅读全文
posted @ 2021-10-13 20:25 penguin02 阅读(95) 评论(0) 推荐(0) 编辑
摘要: #[数据采集]实验一 一、作业① ###1 、作业内容 ####- 要求: 用urllib和re库方法定向爬取给定网址2020中国学科排名的数据。 ####- 输出信息: 2020排名 全部层次 学校类型 总分 1 前2% 中国人民大学 1069.0 2 3 ... ... ###2、实现过程 ## 阅读全文
posted @ 2021-09-29 23:19 penguin02 阅读(95) 评论(0) 推荐(0) 编辑