03 2020 档案

摘要:# 1.在安装scrapy前需要安装好相应的依赖库, 再安装scrapy, 具体安装步骤如下: (1).安装lxml库: pip install lxml (2).安装wheel: pip install wheel (3).安装twisted: pip install twisted文件路径 (t 阅读全文
posted @ 2020-03-24 09:54 关不上门 阅读(129) 评论(0) 推荐(0)
摘要:# 分布式概念: 使用多台机器组成一个分布式的机群,在机群中运行同一组程序,进行联合数据的爬取。 # 原生scrapy无法实现分布式原因: - 原生的scrapy中的调度器不可以被共享 - 原生的scrapy的管道不可以被共享 # 使用scrapy实现分布式思路: - 为原生的scrapy框架提供共 阅读全文
posted @ 2020-03-11 12:47 关不上门 阅读(172) 评论(0) 推荐(0)
摘要:import pymongo class SpiderPipeline(object): def __init__(self, mongo_uri, mongo_db): # mongodb的路由 self.mongo_uri = mongo_uri # mongodb的库名 self.mongo_ 阅读全文
posted @ 2020-03-09 14:23 关不上门 阅读(109) 评论(0) 推荐(0)
摘要:Redis是使用C语言开发, 支持网络, 可基于内存亦可持久化的日志型key-value数据库 为开发语言提供多种API Redis特性: 1.redis存储数据, 内存当中, 可以将内存中的数据保存到磁盘当中, 重启可以再次加载 2.redis不仅仅支持key-value结构(hash)的数据, 阅读全文
posted @ 2020-03-03 12:21 关不上门 阅读(168) 评论(0) 推荐(0)
摘要:打开自己的pycharm的安装目录 bin下文件pycharm.exe.vmoptions 修改默认的 -server -Xms128m -Xmx512m 为 -server -Xms256m -Xmx1024m 启动会变快的 阅读全文
posted @ 2020-03-02 09:21 关不上门 阅读(568) 评论(0) 推荐(0)