摘要: 利用scrapy框架来抓取网站:http://bj.maitian.cn/esfall,并且用xpath解析response,并将标题、价格、面积、区等信息保存到MongoDb当中准备工作: 1.安装scrapy 2.创建scrapy工程 maitian 3.开启mongodb服务端 items.p 阅读全文
posted @ 2020-04-22 22:03 wind_y 阅读(207) 评论(0) 推荐(0) 编辑
摘要: 问题:在pipelines.py文件中导入settings.py文件 出现红色波浪线 解决: 在当前文件下,右键找到mark Directory as(鼠标放在文件夹上,右键) 原因: 项目根目录才会自动标记为source root,默认加到搜索路径中。其他目录(例如这里的maitian)需要手动加 阅读全文
posted @ 2020-04-22 20:17 wind_y 阅读(840) 评论(0) 推荐(0) 编辑
摘要: 1. 打开cmd 2. 想将项目放在C:\python\PycharmProjects\scrapy_demo文件夹下,cd到该目录下 3. 输入创建项目命令:scrapy startproject project_name 4. 使用pycharm打开项目所在目录 5. 文件说明 items.py 阅读全文
posted @ 2020-04-22 13:23 wind_y 阅读(203) 评论(0) 推荐(0) 编辑
摘要: 1. 使用scrapy shell http://bj.maitian.cn/esfall访问麦田房产 北京的二手房 ,得到response:第一页的html 2. 目标:获取标题、价格、面积、区的信息 3. 标题:response.xpath('//div[@class="list_title"] 阅读全文
posted @ 2020-04-22 12:42 wind_y 阅读(170) 评论(0) 推荐(0) 编辑
摘要: 1. 首先安装scrapy:pip install scrapy 2. 为什么使用scrapy shell? Scrapy终端是一个交互终端,供您在未启动spider的情况下尝试及调试您的爬取代码。其实相当于一个python终端, 其本意是用来测试提取数据的代码,不过您可以将其作为正常的Python 阅读全文
posted @ 2020-04-22 11:05 wind_y 阅读(236) 评论(0) 推荐(0) 编辑