上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 16 下一页

使用Leveled Compaction的时机【译】

摘要: 下面,我会尝试翻译一些文章,不会十分按照原文,会加入自己的理解。有不恰当的地方,请大家指正。【正文】 Leveled Compaction策略是1.0版本提出的,主要为了在某些场合克服SizeTiered Compaction策略的缺点。不过很不幸,什么时机选择适用Leveled Compaction策略,并不是那么明朗。下面的内容会给出一些选择Compaction策略的指导建议。 SizeTiered Compaction策略与Leveled Compaction策略的不同 Leveled Compaction有一个基本的特征,可以帮助开发人员确定它是否适合:为了保障,一行数据不会分布在更多 阅读全文
posted @ 2012-06-27 16:28 sing1ee 阅读(477) 评论(0) 推荐(0)

Cassandra SizeTieredCompaction策略解析

摘要: 国内研究使用Cassandra的似乎并不多,远没有Hbase那般火热。偏巧,我就在这块儿并不火热的地方,耕耘了一年多。这一年,有深入研究,有实际运维。我打算把这些东西总结出来(前面也写了一些),希望对后来使用的同学有帮助。而且,我坚信,使用Cassandra的团队会越来越多。这篇博客我来解释以下SizeTiered策略,这是一个Cassandra1.0之前的比较简单的Compaction策略。我之前的博客有粗略讲过leveled策略(后面会找时间丰富以下)。SizeTiered策略比较简单,可是尽管简单,如果不深入代码,在实际运维的时候,还是会出现异常现象而无法解释,找不到解决办法。SizeT 阅读全文
posted @ 2012-06-26 12:42 sing1ee 阅读(835) 评论(0) 推荐(0)

python中文分词项目集合

摘要: 前几天,发了一条围脖,咨询大家python中文分词的库,受到了一些反馈,自己google了一下,收集了一些,集中在这里,和大家分享,如果有别的,也希望大家告诉我。 http://opensource.plurk.com/Loso_Chinese_Segmentation_System/ http://code.google.com/p/smallseg/ http://code.google.co... 阅读全文
posted @ 2012-06-25 00:31 sing1ee 阅读(264) 评论(0) 推荐(0)

机器学习趣题

摘要: 前些天在微博上有一道逆天的幼儿园题目,如下图: 围脖上有很多人猜测答案,更有趣的是,很多人提出用机器学习的方法解决。很有趣,也符合我学习的方法,这样,更有利于学习。遂决定尝试一下。 代码如下:#!/usr/bin/python#-*- encoding: utf-8 -*- '''Created on 2012-6-22@author: zhangcheng'''from numpy import loadtxt, zeros, ones, array, mean, stddef feature_normalize(X): mean_r = [] 阅读全文
posted @ 2012-06-22 12:21 sing1ee 阅读(371) 评论(0) 推荐(0)

社交圈子挖掘小结

摘要: 本来是写了一条微博,可是心里总是有点不踏实,还是在这里写写,留个纪念。微博写多了,博客就少了,这个不太好。这篇博客是对之前做的社交圈子挖掘方面尝试的总结,这个工作并没有深入太多。因为没有实际需求的驱动,没有做深。不过还是有些心得,记录下来,以后捡起来也方便,或者最好的情况,可以对后面的同学有些启发。 社交圈子挖掘,这里的圈子主要有两种:线下真实的朋友圈子(不用诧异,真的就是如此)还有兴趣导向的“圈子”为什么会有两种不同的呢?因为微博具备这两个特点,在国内,微博不仅仅是一个社交媒体,而且也是一个sns社区。这就产生了这两种不同的圈子,sns的特性,似乎在腾讯微博更加显著。这两类圈子都很有用,对于 阅读全文
posted @ 2012-06-21 17:36 sing1ee 阅读(707) 评论(8) 推荐(0)

惠普中国CEO孙振耀退休感言【转】

摘要: 这是转来的文章,面对同样的问题,希望自己能够明白一些道理。也分享给同学们。如果这篇文章没有分享给你,那是我的错。如果这篇文章分享给你了,你却没有读,继续走弯路的你不要怪我。如果你看了这篇文章,只读了一半你就说没时间了,说明你已经是个“茫”人了。如果你看完了,你觉得这篇文章只是讲讲大道理,说明你的人生阅历还不够,需要你把这篇文章珍藏,走出去碰几年壁,头破血流后再回来,再读,你就会感叹自己的年少无知。... 阅读全文
posted @ 2012-05-24 22:55 sing1ee 阅读(244) 评论(0) 推荐(0)

被忽视的Compaction策略-有关NoSQL Compaction策略的一点思考

摘要: 最近一直在做Cassandra优化相关的工作,大的方面就是主要考虑如何提升Cassandra的读性能。我主要集中在两点上:索引的优化Cassandra在多级存储介质的环境下的改进这 两点改进目前都已经做完,这里我的师弟也做出了突出的贡献。但是,还有一点,是我除了以上两点以外思考比较多的:就是Compaction操作。现在的 NoSQL数据库必须要有Compaction操作。但是似乎研究界,工业界对于Compaction的关注没有那么多。也可能是这个问题比较简单,大家 不愿意关注。也可能这个问题想要得到好的结果与实际付出不相符合。不管怎样,我还想结合这些天的测试和自己的思考,和大家一起讨论以下的 阅读全文
posted @ 2012-05-24 14:46 sing1ee 阅读(829) 评论(0) 推荐(0)

Cassandra配置cassanra.yaml详解

摘要: 这篇博客,对Cassandra配置-cassandra.yaml的配置项进行重点解释。 OptionDefaultValueauthenticatororg.apache.cassandra.auth.AllowAllAuthenticatorauthorityorg.apache.cassandra.auth.AllowAllAuthoritybroadcast_addresssameaslisten_addresscluster_nameTestCluster(这个名字修改了,cassandra-cli连接的时候,需要指定,默认就是连的这个。)column_index_size_in_.. 阅读全文
posted @ 2012-05-17 11:32 sing1ee 阅读(1029) 评论(0) 推荐(0)

Cassandra LeveledCompaction策略在SSD上对读性能的影响

摘要: 有关Cassandra的Compaction机制写了好几篇博客了。好像像我这么纠结Compaction机制的比较少吧。我比较了不同Compaction策略对写性能的影响、读性能的影响,以及compaction本身的性能我也有测试。就是想以具体的数字,来证实Compaction机制的特点,从而找到合适的应用场景。 LeveledCompaction是1.0以后,参考Leveldb实现的一个机制。确实有很多好处,如下:保证90%的读只读一个sstable文件,最坏的情况,当单机有10T数据的时候,7(7层)个sstable无用数据(删除的,过期的)比较少,最多占到10%Compaction空间开销 阅读全文
posted @ 2012-05-16 14:11 sing1ee 阅读(409) 评论(0) 推荐(0)

Cassandra LeveledCompaction在SSD上对写性能的影响

摘要: 使用YCSB,value大小为1k。入8000w数据。统计数据如下:综合数据 RunTime(ms)3773307Throughput(ops/sec)21201.56Operations80000000AverageLatency(us)4691.972MinLatency(us)119MaxLatency(us)464015095thPercentileLatency(ms)799thPercentileLatency(ms)28OPS数据延迟数据 延迟和OPS都要比SizeTieredCompaction好。OPS要高5000OPS。 阅读全文
posted @ 2012-05-15 17:30 sing1ee 阅读(299) 评论(0) 推荐(0)
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 16 下一页