摘要: 一、中间件的分类 scrapy的中间件理论上有三种(Schduler Middleware,Spider Middleware,Downloader Middleware),在应用上一般有以下两种 1.爬虫中间件Spider Middleware 我们可以在Downloader生成的Response 阅读全文
posted @ 2018-05-22 14:54 家迪的家 阅读(561) 评论(0) 推荐(0)
摘要: 本文主要讲解MyISAM和InnoDB优缺点对比 MyISAM是MySQL的默认数据库引擎(5.5版之前)。虽然性能极佳,而且提供了大量的特性,包括全文索引、压缩、空间函数等,但MyISAM不支持事务和行级锁,而且最大的缺陷就是崩溃后无法安全恢复。不过,5.5版本之后,MySQL引入了InnoDB( 阅读全文
posted @ 2018-05-22 13:49 家迪的家 阅读(134) 评论(0) 推荐(0)
摘要: 下面简单介绍两种部署的方式,crontab定时任务+日志,第二种则是scrapyd+spiderkeeper,更推荐后者,图形界面的方式,管理方便,清晰。 scrapy 开发调试 1、在spiders同目录下新建一个run.py文件,内容如下(列表里面最后可以加上参数,如--nolog) 2、下面命 阅读全文
posted @ 2018-05-21 20:24 家迪的家 阅读(723) 评论(0) 推荐(0)
摘要: 目前pip install pyinstaller已经成熟 但是还是有一些坑,郁闷了好久,记一下注意点吧。 将py脚本打包成exe文件时,如果导入了非python自带库,则需要将导入的库从site-package中复制粘贴放在打包文件当前目录下。 然后运行pyinstaller -F xxx.py。 阅读全文
posted @ 2018-05-15 11:35 家迪的家 阅读(323) 评论(0) 推荐(0)
摘要: 想要记录总结一下自己在这个小项目中所遇到的坑,以及解决问题的思路。 首先我觉得这个小项目挺有实际市场的,市场上有一定的需求量,这个就是驱动力吧。这个小项目的关键点是wechat网页版通信全过程,讲真挺繁琐的。chrome自带的抓包,简直不要太好用。 说一说最主要的两个post请求,一个是心跳包,检测 阅读全文
posted @ 2018-05-08 14:11 家迪的家 阅读(1814) 评论(0) 推荐(0)
摘要: YARN架构: 1)ResourceManager:RM 整个集群同一时间提供服务的RM只有一个,负责集群资源的统一管理和调度。 处理客户端的请求:提交作业,杀死作业 2)NodeManager:NM 整个集群中有多个,负责自己本身节点资源管理和使用。 定时向RM汇报本节点的资源使用情况。 接收并处 阅读全文
posted @ 2018-05-03 15:58 家迪的家 阅读(269) 评论(0) 推荐(0)
摘要: 主要分为以下三部分: 1. 用户账号的添加、修改及删除 2. 用户口令的管理 3. 用户组管理 用户管理 1.添加新用户账号 2.删除账号 3.修改账号 4.用户口令管理 实例: 用户组管理 1. 增加一个新用户组 2. 删除一个已有的用户组 3. 修改用户组属性 阅读全文
posted @ 2018-05-02 13:41 家迪的家 阅读(300) 评论(0) 推荐(0)
摘要: django ORM 单独使用 关键点在于需要将项目的根目录设置为模块目录。 QuerySet API 原生sql 阅读全文
posted @ 2018-05-02 11:08 家迪的家 阅读(288) 评论(0) 推荐(0)
摘要: 1.11.13版本下的[安装]: 1.下载分支版本 https://github.com/nocmt/Xadmin1.11.x/archive/master.zip 2.解压,并将其放在site-package下 然后在 settings.py文件的INSTALLED_APPS内添加以下代码: 3. 阅读全文
posted @ 2018-05-01 17:33 家迪的家 阅读(968) 评论(0) 推荐(0)
摘要: 创建虚拟环境: 1) pip install virtualenv 2) virtualenv DemoEnv(虚拟环境名) 3) 此处windows和linux不同系统下的文件结构略有不同 linux下的文件目录通俗易懂bin,lib,include,而windows下则是scripts,lib, 阅读全文
posted @ 2018-04-27 10:44 家迪的家 阅读(577) 评论(0) 推荐(0)