摘要: 任务目标:以分布式的方式爬取链家网上二手房信息,包括标题、城市、行政区、总价、户型、面积、朝向等信息 分布式爬虫,即在多台电脑上同时执行同一个爬虫任务,在分布式爬取之前,需要先完成单机爬虫,然后部署到多台机器上,完成分布式。 链家网单机爬虫:从城市页面开始爬取,到每个城市的不同行政区,以及每个行政区 阅读全文
posted @ 2020-11-12 18:57 脱下长日的假面 阅读(308) 评论(0) 推荐(0) 编辑
摘要: 任务目标: 下载“编辑精选”下所有页面所有文章内的图片,保存到指定文件夹 打开zcool主页,点击“发现”,出现“编辑精选”标签,下载该标签下所有页面所有文章内的图片。 通过查看翻页url以及文章详情url发现,这两个url都符合一定的规则,且都可以在网页源代码中找到,因此选择scrapy的Craw 阅读全文
posted @ 2020-11-12 11:58 脱下长日的假面 阅读(280) 评论(0) 推荐(0) 编辑