Cassandra SizeTieredCompaction在SSD上对写性能的影响

摘要: 之前测试过在HDD上的表现,接下来的一组数据是在SSD上表现。这篇博客主要是测试写性能,众所周知,顺序写在SSD上,与HDD上对比,并没有太多的优势,不过,顺序写可以充分的利用SSD,延长SSD的寿命。数据如下:综合数据 RunTime(ms)4381994Throughput(ops/sec)15974.46Operations100000000AverageLatency(us)6237.33MinLatency(us)107MaxLatency(us)660471595thPercentileLatency(ms)1299thPercentileLatency(ms)58OPS情况延迟. 阅读全文
posted @ 2012-05-15 11:24 见路非道 阅读(313) 评论(0) 推荐(0)

做系统需要知道的一组数字

摘要: 这张图片是在微博上转过来的,以备我自己查看。这张图上的数据,应该印在脑子里。 阅读全文
posted @ 2012-05-14 19:04 见路非道 阅读(139) 评论(0) 推荐(0)

一组数据:不同Compaction策略对Cassandra1.1写性能的影响

摘要: 一直只是看到官方有关LeveledCompactionStrategy优于SizeTieredCompactionStrategy的说法,主要有:节省空间,在做Compaction操作过程中,最多需要预留10%的额外空间,而不是SizeTieredCompactionStrategy做major compaction需要的一倍空间,提高了磁盘的利用率。读性能的提升。主要是因为level内部数据有序,没有重叠。重复数据只会在不同的level之间出现。据说可以保证90%读,只需要读一个sstable。我想这也要在一定的读写比例之下,才能实现。具体有待测试。对于写性能,我没看到什么说明,如果有,大家 阅读全文
posted @ 2012-05-08 09:50 见路非道 阅读(425) 评论(1) 推荐(0)

cassandra备忘

摘要: cassandra优化的工作还继续,而且效果不错。等待海量规模数据检验。平时在测试优化cassandra的时候,经常会用到一些命令,有些还挺不好记的,记录到这里,以备查找:修 改CompactionStrategy update column family data with compaction_strategy=LeveledCompactionStrategy and compaction_strategy_options=[{sstable_size_in_mb:10}];设置压缩失效 update column family data with compression_options 阅读全文
posted @ 2012-05-07 16:13 见路非道 阅读(203) 评论(0) 推荐(0)

POJ2955解题报告

摘要: 有些日子不写博客了,前些天和张老师交流,觉得写给自己看看,还是非常有必要的。这个题目是括号匹配的题目,我遇到过两种类型1)问是否可以匹配;2)问匹配的最大长度有多少;思路差不多。这个题目时候一个情况。合法情况如下:s代表字符串 s是空串,则s是合法的--递归的终止条件 s是合法的,那么(s),[s]是合法的--递归的一种情况 如果s1,s2是合法的,那么s1s2是合法的--递归的另一种情况 其它的... 阅读全文
posted @ 2012-04-23 13:12 见路非道 阅读(546) 评论(0) 推荐(0)

在mac上使用octave

摘要: 开始机器学习的征程这段时间开始看Andrew Ng的机器学习视频,去年就报名了,但是去年一方面有些其他的事情,更重要的是找不到应用的场景,只是听课,觉得进展不快。最近有需求了,又开始看视频。不得不说Andrew Ng讲得真不错。没有高深的数学证明,注重应用,非常对我的胃口,如果不懂再去看看书,往往会有“原来如此”的感觉。在视频中,Andrew Ng推荐大家使用Octave这个工具来开发机器学习的程... 阅读全文
posted @ 2012-03-18 21:09 见路非道 阅读(5200) 评论(0) 推荐(1)

web.py使用要点

摘要: 这几天有一个构建restful services的需求,我采用了web.py,之前并没有使用过,但在使用中确实给我带来了很多惊喜。当然,最大的惊喜就是简单,方便。之前开发restful服务的时候,采用java的框架restlet,当时觉得就很方便,很轻量级了。但是用了web.py之后,才发现,开发可以如此之轻。为了迎合python的特点,在介绍web.py的时候,以罗列要点的方式进行,我会在自己不... 阅读全文
posted @ 2012-03-18 00:56 见路非道 阅读(2404) 评论(3) 推荐(0)

社交圈子挖掘的一种快速的方法--label propagation

摘要: 这几天做复杂网络相关的学习研究,越发觉得网络科学的内容会越来越丰富,应用会越来越多。会为人类进步,产生巨大的贡献。我又激动了。 这篇博客介绍的方法,可以应用在大规模的复杂网络中,有着近乎线性的复杂度。这篇博客继续介绍复杂网络中社团结构发现的一种方法--label propagation(简称LP)。与之前博客中介绍的local_fitness方法类似,这个方法也是从局部结构信息出发。LP方法的提出,主要是综合考虑了以前的方法有以下两个弊端:很多方法需要有先验的知识:社团数目,中心点,clique大小等等之前的一些方法,在性能上复杂度都比较高为了解决以上的两个问题,论文中提出label prop 阅读全文
posted @ 2012-03-15 17:20 见路非道 阅读(5063) 评论(2) 推荐(0)

社交网络挖掘的另一个工具-igraph

摘要: 工欲善其事,必先利其器最近一直在做社交网络挖掘相关的工作,一直用的networkx这个python工具,享受python带来的便利的同时,要忍受networkx的性能问题。当分析的网络较小的时候,networkx没有问题,但是节点有几百万的时候,networkx真的很慢。所以,我就逐渐使用igraph。igraph是c实现的,性能比networkx肯定要好,而且,提供的api更丰富一些,同时支持python和R的接口,使用起来很方便。具体的区别,我会在使用过程中不断总结,并且和大家进行分享。下载下载igraph:点击这里。下载python接口:点击这里。这两个连接,都是针对0.5.4版本的,1 阅读全文
posted @ 2012-03-14 11:41 见路非道 阅读(2071) 评论(0) 推荐(0)

将python中的dict按值排序

摘要: 这几天仍在做社交圈子挖掘,实验将会整理整理再与大家分享,分析中,遇到一个问题,就对是python的dict的value进行排序:有什么好的方法么?我搜了一下,找到以下几种,分享:假设有dict如下:x = {1: 2, 3: 4, 4:3, 2:1, 0:0} import operatorsorted_x = sorted(x.iteritems(), key=operator.itemgett... 阅读全文
posted @ 2012-03-12 19:44 见路非道 阅读(487) 评论(0) 推荐(0)