上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 18 下一页

Cassandra SizeTieredCompaction策略解析

摘要: 国内研究使用Cassandra的似乎并不多,远没有Hbase那般火热。偏巧,我就在这块儿并不火热的地方,耕耘了一年多。这一年,有深入研究,有实际运维。我打算把这些东西总结出来(前面也写了一些),希望对后来使用的同学有帮助。而且,我坚信,使用Cassandra的团队会越来越多。这篇博客我来解释以下SizeTiered策略,这是一个Cassandra1.0之前的比较简单的Compaction策略。我之前的博客有粗略讲过leveled策略(后面会找时间丰富以下)。SizeTiered策略比较简单,可是尽管简单,如果不深入代码,在实际运维的时候,还是会出现异常现象而无法解释,找不到解决办法。SizeT 阅读全文
posted @ 2012-06-26 12:42 见路非道 阅读(840) 评论(0) 推荐(0)

python中文分词项目集合

摘要: 前几天,发了一条围脖,咨询大家python中文分词的库,受到了一些反馈,自己google了一下,收集了一些,集中在这里,和大家分享,如果有别的,也希望大家告诉我。 http://opensource.plurk.com/Loso_Chinese_Segmentation_System/ http://code.google.com/p/smallseg/ http://code.google.co... 阅读全文
posted @ 2012-06-25 00:31 见路非道 阅读(265) 评论(0) 推荐(0)

机器学习趣题

摘要: 前些天在微博上有一道逆天的幼儿园题目,如下图: 围脖上有很多人猜测答案,更有趣的是,很多人提出用机器学习的方法解决。很有趣,也符合我学习的方法,这样,更有利于学习。遂决定尝试一下。 代码如下:#!/usr/bin/python#-*- encoding: utf-8 -*- '''Created on 2012-6-22@author: zhangcheng'''from numpy import loadtxt, zeros, ones, array, mean, stddef feature_normalize(X): mean_r = [] 阅读全文
posted @ 2012-06-22 12:21 见路非道 阅读(375) 评论(0) 推荐(0)

社交圈子挖掘小结

摘要: 本来是写了一条微博,可是心里总是有点不踏实,还是在这里写写,留个纪念。微博写多了,博客就少了,这个不太好。这篇博客是对之前做的社交圈子挖掘方面尝试的总结,这个工作并没有深入太多。因为没有实际需求的驱动,没有做深。不过还是有些心得,记录下来,以后捡起来也方便,或者最好的情况,可以对后面的同学有些启发。 社交圈子挖掘,这里的圈子主要有两种:线下真实的朋友圈子(不用诧异,真的就是如此)还有兴趣导向的“圈子”为什么会有两种不同的呢?因为微博具备这两个特点,在国内,微博不仅仅是一个社交媒体,而且也是一个sns社区。这就产生了这两种不同的圈子,sns的特性,似乎在腾讯微博更加显著。这两类圈子都很有用,对于 阅读全文
posted @ 2012-06-21 17:36 见路非道 阅读(710) 评论(8) 推荐(0)

惠普中国CEO孙振耀退休感言【转】

摘要: 这是转来的文章,面对同样的问题,希望自己能够明白一些道理。也分享给同学们。如果这篇文章没有分享给你,那是我的错。如果这篇文章分享给你了,你却没有读,继续走弯路的你不要怪我。如果你看了这篇文章,只读了一半你就说没时间了,说明你已经是个“茫”人了。如果你看完了,你觉得这篇文章只是讲讲大道理,说明你的人生阅历还不够,需要你把这篇文章珍藏,走出去碰几年壁,头破血流后再回来,再读,你就会感叹自己的年少无知。... 阅读全文
posted @ 2012-05-24 22:55 见路非道 阅读(249) 评论(0) 推荐(0)

被忽视的Compaction策略-有关NoSQL Compaction策略的一点思考

摘要: 最近一直在做Cassandra优化相关的工作,大的方面就是主要考虑如何提升Cassandra的读性能。我主要集中在两点上:索引的优化Cassandra在多级存储介质的环境下的改进这 两点改进目前都已经做完,这里我的师弟也做出了突出的贡献。但是,还有一点,是我除了以上两点以外思考比较多的:就是Compaction操作。现在的 NoSQL数据库必须要有Compaction操作。但是似乎研究界,工业界对于Compaction的关注没有那么多。也可能是这个问题比较简单,大家 不愿意关注。也可能这个问题想要得到好的结果与实际付出不相符合。不管怎样,我还想结合这些天的测试和自己的思考,和大家一起讨论以下的 阅读全文
posted @ 2012-05-24 14:46 见路非道 阅读(845) 评论(0) 推荐(0)

Cassandra配置cassanra.yaml详解

摘要: 这篇博客,对Cassandra配置-cassandra.yaml的配置项进行重点解释。 OptionDefaultValueauthenticatororg.apache.cassandra.auth.AllowAllAuthenticatorauthorityorg.apache.cassandra.auth.AllowAllAuthoritybroadcast_addresssameaslisten_addresscluster_nameTestCluster(这个名字修改了,cassandra-cli连接的时候,需要指定,默认就是连的这个。)column_index_size_in_.. 阅读全文
posted @ 2012-05-17 11:32 见路非道 阅读(1034) 评论(0) 推荐(0)

Cassandra LeveledCompaction策略在SSD上对读性能的影响

摘要: 有关Cassandra的Compaction机制写了好几篇博客了。好像像我这么纠结Compaction机制的比较少吧。我比较了不同Compaction策略对写性能的影响、读性能的影响,以及compaction本身的性能我也有测试。就是想以具体的数字,来证实Compaction机制的特点,从而找到合适的应用场景。 LeveledCompaction是1.0以后,参考Leveldb实现的一个机制。确实有很多好处,如下:保证90%的读只读一个sstable文件,最坏的情况,当单机有10T数据的时候,7(7层)个sstable无用数据(删除的,过期的)比较少,最多占到10%Compaction空间开销 阅读全文
posted @ 2012-05-16 14:11 见路非道 阅读(415) 评论(0) 推荐(0)

Cassandra LeveledCompaction在SSD上对写性能的影响

摘要: 使用YCSB,value大小为1k。入8000w数据。统计数据如下:综合数据 RunTime(ms)3773307Throughput(ops/sec)21201.56Operations80000000AverageLatency(us)4691.972MinLatency(us)119MaxLatency(us)464015095thPercentileLatency(ms)799thPercentileLatency(ms)28OPS数据延迟数据 延迟和OPS都要比SizeTieredCompaction好。OPS要高5000OPS。 阅读全文
posted @ 2012-05-15 17:30 见路非道 阅读(302) 评论(0) 推荐(0)

Cassandra SizeTierCompaction在SSD上对读的影响

摘要: 在8000w数据规模上,跑了10w个查询,因为数据生成是有YCSB完成的,而且,key也是随机生成的。重复程度不能够模拟真实的应用。测试的结果无法真实表现出Compaction策略之间的差异。不过,我会验证以下。这次是对SizeTiered影响的测试。SSD随机读真的太给力了。是粗略估计HDD的100倍。测试结果如下:冷启动综合数据 RunTime(ms)103728Throughput(ops/sec)9640.598Operations1000000AverageLatency(us)10313.15MinLatency(us)237MaxLatency(us)142498895thP.. 阅读全文
posted @ 2012-05-15 14:56 见路非道 阅读(239) 评论(0) 推荐(0)
上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 18 下一页