摘要: 特点 内存+磁盘的持久化保存 具有非常丰富的数据类型,尤其擅长数组类数据的高速度处理 数据快照 自带的主从复制 丰富的数据类型 字符串 链表 集合 有序集合 散列表 适用场景 时间线应用 得益于链表的高速实现 对数组形式数据频繁添加和删除 不限于常规数组,包括链表,有向集合 安装 centos 上 阅读全文
posted @ 2018-01-26 20:57 outback123 阅读(252) 评论(0) 推荐(0)
摘要: 一、游标 先插入一张表的数据 for(i=0; i<100; i++) { db.c.insert({x : i}); } 定义一个游标 var cursor = db.c.find(); 以循环的方式输出游标的数据 while (cursor.hasNext()) { obj = cursor.n 阅读全文
posted @ 2018-01-26 14:18 outback123 阅读(235) 评论(0) 推荐(0)
摘要: 一、mongodb开启和关闭 1、打开mongodb 命令行启动的一些参数 --dbpath 指定数据库文件保存位置 --fork 指定是否后台运行 --port 指定端口 --logpath 指定日志文件位置 --config 这里可以指定配制信息 --noprealloc 启动时不预先分配数据库 阅读全文
posted @ 2018-01-26 14:17 outback123 阅读(281) 评论(0) 推荐(0)
摘要: Memcached的特点 n 全内存运转 ,(不会把数据存入硬盘,重启后数据丢失) n 哈希方式存储 n 简单文本协议进行数据通信 n 只操作字符型数据 n 其它类型数据由应用解释,序列化以及反序列化 n 集群也由应用进行控制,采用一致性散列(哈希)算法 安装 centos 安装 memcached 阅读全文
posted @ 2018-01-26 14:16 outback123 阅读(132) 评论(0) 推荐(0)
摘要: 猫眼电影top100 是数据是在加载网页时直接就已经加载了的,所以可以通过requests.get()方法去获取这个url的数据,能过对得到的数据进行分析从而获得top100的数据, 把获取的数据存入本地文件中. 代码如下: 猫眼电影top100每个页面显示10部电影,用offset 来构造网页, 阅读全文
posted @ 2018-01-23 19:28 outback123 阅读(179) 评论(0) 推荐(0)
摘要: 今天学习分析ajax 请求,现把学得记录, 把我们在今日头条搜索街拍美图的时候,今日头条会发起ajax请求去请求图片,所以我们在网页源码中不能找到图片的url,但是今日头条网页中有一个json 文件,这相文件中就包括单个图集的具体url,通过访问这个url ,又可以获取一个json 文件,这个jso 阅读全文
posted @ 2018-01-23 19:19 outback123 阅读(520) 评论(0) 推荐(0)
摘要: 为了爬取拉钩,今天学习了selenum的使用技巧. from scrapy.http import HtmlResponse class JSPageMiddleware(object): def process_request(self, request, spider): if spider.n 阅读全文
posted @ 2018-01-22 17:24 outback123 阅读(2878) 评论(0) 推荐(0)
摘要: 今天准备用scrapy来爬取拉钩招聘信息,拉钩要等录后才能爬取,所以先写了一个模拟登录的程序,代码如下: 断点打在checkLogin,经过调试总是出现,请勿重复提交,请刷新页面重试这样的的提示 这样的提示,说明登录没有成功,我排查原因,debug了几十次,还是不行,一直提示这样的错误,我也是没有办 阅读全文
posted @ 2018-01-22 17:16 outback123 阅读(553) 评论(0) 推荐(0)
摘要: 在爬虫爬取过程中,网站会根据我们的IP和UA去确认到底是浏览器操作还是爬虫在操作,所以,为了让爬虫不被网站禁止,随机切换Ip 和UA是很重要的,因为这个类在各个爬虫中经常要用到,所以可以自已维护一份随机切换IP和UA的代码, 可以在爬虫工程目录中加入tools这个目录,这个目录中存放着这个爬虫所用到 阅读全文
posted @ 2018-01-21 21:38 outback123 阅读(3695) 评论(0) 推荐(0)
摘要: 在写爬虫时,经常需要切换IP,所以很有必要自已在数据维护库中维护一个IP池,这样,就可以在需用的时候随机切换IP,我的方法是爬取西刺网的免费IP,存入数据库中,然后在scrapy 工程中加入tools这个目录,里面存放一些常用的目录,包括这个免费IP池,具体目录如下: crawl_ip_from_x 阅读全文
posted @ 2018-01-21 21:12 outback123 阅读(377) 评论(0) 推荐(0)