outback123 - 博客园

2018年1月26日

摘要：特点内存+磁盘的持久化保存具有非常丰富的数据类型，尤其擅长数组类数据的高速度处理数据快照自带的主从复制丰富的数据类型字符串链表集合有序集合散列表适用场景时间线应用得益于链表的高速实现对数组形式数据频繁添加和删除不限于常规数组，包括链表，有向集合安装 centos 上阅读全文

posted @ 2018-01-26 20:57 outback123 阅读(252) 评论(0) 推荐(0)

mongodb进阶

摘要：一、游标先插入一张表的数据 for(i=0; i<100; i++) { db.c.insert({x : i}); } 定义一个游标 var cursor = db.c.find(); 以循环的方式输出游标的数据 while (cursor.hasNext()) { obj = cursor.n 阅读全文

posted @ 2018-01-26 14:18 outback123 阅读(235) 评论(0) 推荐(0)

mongodb基础知识

摘要：一、mongodb开启和关闭 1、打开mongodb 命令行启动的一些参数 --dbpath 指定数据库文件保存位置 --fork 指定是否后台运行 --port 指定端口 --logpath 指定日志文件位置 --config 这里可以指定配制信息 --noprealloc 启动时不预先分配数据库阅读全文

posted @ 2018-01-26 14:17 outback123 阅读(281) 评论(0) 推荐(0)

memcached基础知识

摘要： Memcached的特点 n 全内存运转 ,(不会把数据存入硬盘，重启后数据丢失) n 哈希方式存储 n 简单文本协议进行数据通信 n 只操作字符型数据 n 其它类型数据由应用解释，序列化以及反序列化 n 集群也由应用进行控制，采用一致性散列（哈希）算法安装 centos 安装 memcached 阅读全文

posted @ 2018-01-26 14:16 outback123 阅读(132) 评论(0) 推荐(0)

2018年1月23日

利用多进程获取猫眼电影top100

摘要：猫眼电影top100 是数据是在加载网页时直接就已经加载了的,所以可以通过requests.get()方法去获取这个url的数据,能过对得到的数据进行分析从而获得top100的数据, 把获取的数据存入本地文件中. 代码如下: 猫眼电影top100每个页面显示10部电影,用offset 来构造网页, 阅读全文

posted @ 2018-01-23 19:28 outback123 阅读(179) 评论(0) 推荐(0)

分析AJAX抓取今日头条的街拍美图并把信息存入mongodb中

摘要：今天学习分析ajax 请求,现把学得记录, 把我们在今日头条搜索街拍美图的时候,今日头条会发起ajax请求去请求图片,所以我们在网页源码中不能找到图片的url,但是今日头条网页中有一个json 文件,这相文件中就包括单个图集的具体url,通过访问这个url ,又可以获取一个json 文件,这个jso 阅读全文

posted @ 2018-01-23 19:19 outback123 阅读(520) 评论(0) 推荐(0)

2018年1月22日

selenium的使用技巧及集成到scrapy

摘要：为了爬取拉钩,今天学习了selenum的使用技巧. from scrapy.http import HtmlResponse class JSPageMiddleware(object): def process_request(self, request, spider): if spider.n 阅读全文

posted @ 2018-01-22 17:24 outback123 阅读(2878) 评论(0) 推荐(0)

记一次失败的爬取

摘要：今天准备用scrapy来爬取拉钩招聘信息,拉钩要等录后才能爬取,所以先写了一个模拟登录的程序,代码如下: 断点打在checkLogin,经过调试总是出现,请勿重复提交,请刷新页面重试这样的的提示这样的提示,说明登录没有成功,我排查原因,debug了几十次,还是不行,一直提示这样的错误,我也是没有办阅读全文

posted @ 2018-01-22 17:16 outback123 阅读(553) 评论(0) 推荐(0)

2018年1月21日

随机切换IP和UA

摘要：在爬虫爬取过程中，网站会根据我们的IP和UA去确认到底是浏览器操作还是爬虫在操作，所以，为了让爬虫不被网站禁止，随机切换Ip　和UA是很重要的，因为这个类在各个爬虫中经常要用到，所以可以自已维护一份随机切换IP和UA的代码，可以在爬虫工程目录中加入tools这个目录，这个目录中存放着这个爬虫所用到阅读全文

posted @ 2018-01-21 21:38 outback123 阅读(3695) 评论(0) 推荐(0)

爬取西刺网的免费IP

摘要：在写爬虫时，经常需要切换IP，所以很有必要自已在数据维护库中维护一个IP池，这样，就可以在需用的时候随机切换IP，我的方法是爬取西刺网的免费IP，存入数据库中，然后在scrapy 工程中加入tools这个目录，里面存放一些常用的目录，包括这个免费IP池，具体目录如下： crawl_ip_from_x 阅读全文

posted @ 2018-01-21 21:12 outback123 阅读(377) 评论(0) 推荐(0)

Outback

公告