摘要:
项目源码可以参考我的github:https://github.com/corolcorona/StacksSpider 1.明确需要获取的内容(标题,链接),然后把需要获取的内容写到items.py中,通过检查获取内容的html,可以看出我们要获取的内容标签 2.根据页面的html获取到我们需要的 阅读全文
posted @ 2017-05-03 16:24
corolcorona
阅读(227)
评论(0)
推荐(0)
摘要:
本项目实现了获取stack overflow问题,使用python语言,scrapy框架,选取mongoDB作为持久化数据库,redis做为数据缓存 项目源码可以参考我的github:https://github.com/corolcorona/StacksSpider 1.创建一个scrapy项目 阅读全文
posted @ 2017-05-03 15:12
corolcorona
阅读(576)
评论(0)
推荐(0)
摘要:
1.使用mongoDB必须已经安装mongoDB和pymongo 可以通过命令sudo pip install pymongo安装pymongo 2.settings.py 需要配置MongoDB的IP地址、端口号、数据记录名称,可以实现方便的更换MongoDB的数据库信息。引用pipelines. 阅读全文
posted @ 2017-05-03 12:35
corolcorona
阅读(262)
评论(0)
推荐(0)
摘要:
项目源码可以参考我的github:https://github.com/corolcorona/spider_scrapy 1.执行以下命令安装redis模块 2.settings.py (报错exceptions.ValueError: ("Failed to instantiate dupefi 阅读全文
posted @ 2017-05-03 12:35
corolcorona
阅读(1150)
评论(1)
推荐(0)

浙公网安备 33010602011771号