见路非道 - 博客园

机器学习趣题

摘要：前些天在微博上有一道逆天的幼儿园题目，如下图：围脖上有很多人猜测答案，更有趣的是，很多人提出用机器学习的方法解决。很有趣，也符合我学习的方法，这样，更有利于学习。遂决定尝试一下。代码如下：#!/usr/bin/python#-*- encoding: utf-8 -*- '''Created on 2012-6-22@author: zhangcheng'''from numpy import loadtxt, zeros, ones, array, mean, stddef feature_normalize(X): mean_r = [] 阅读全文

posted @ 2012-06-22 12:21 见路非道阅读(390) 评论(0) 推荐(0)

社交圈子挖掘小结

摘要：本来是写了一条微博，可是心里总是有点不踏实，还是在这里写写，留个纪念。微博写多了，博客就少了，这个不太好。这篇博客是对之前做的社交圈子挖掘方面尝试的总结，这个工作并没有深入太多。因为没有实际需求的驱动，没有做深。不过还是有些心得，记录下来，以后捡起来也方便，或者最好的情况，可以对后面的同学有些启发。社交圈子挖掘，这里的圈子主要有两种：线下真实的朋友圈子（不用诧异，真的就是如此）还有兴趣导向的“圈子”为什么会有两种不同的呢？因为微博具备这两个特点，在国内，微博不仅仅是一个社交媒体，而且也是一个sns社区。这就产生了这两种不同的圈子，sns的特性，似乎在腾讯微博更加显著。这两类圈子都很有用，对于阅读全文

posted @ 2012-06-21 17:36 见路非道阅读(715) 评论(8) 推荐(0)

惠普中国CEO孙振耀退休感言【转】

摘要：这是转来的文章，面对同样的问题，希望自己能够明白一些道理。也分享给同学们。如果这篇文章没有分享给你，那是我的错。如果这篇文章分享给你了，你却没有读，继续走弯路的你不要怪我。如果你看了这篇文章，只读了一半你就说没时间了，说明你已经是个“茫”人了。如果你看完了，你觉得这篇文章只是讲讲大道理，说明你的人生阅历还不够，需要你把这篇文章珍藏，走出去碰几年壁，头破血流后再回来，再读，你就会感叹自己的年少无知。... 阅读全文

posted @ 2012-05-24 22:55 见路非道阅读(260) 评论(0) 推荐(0)

被忽视的Compaction策略-有关NoSQL Compaction策略的一点思考

摘要：最近一直在做Cassandra优化相关的工作，大的方面就是主要考虑如何提升Cassandra的读性能。我主要集中在两点上：索引的优化Cassandra在多级存储介质的环境下的改进这两点改进目前都已经做完，这里我的师弟也做出了突出的贡献。但是，还有一点，是我除了以上两点以外思考比较多的：就是Compaction操作。现在的 NoSQL数据库必须要有Compaction操作。但是似乎研究界，工业界对于Compaction的关注没有那么多。也可能是这个问题比较简单，大家不愿意关注。也可能这个问题想要得到好的结果与实际付出不相符合。不管怎样，我还想结合这些天的测试和自己的思考，和大家一起讨论以下的阅读全文

posted @ 2012-05-24 14:46 见路非道阅读(859) 评论(0) 推荐(0)

Cassandra配置cassanra.yaml详解

摘要：这篇博客，对Cassandra配置-cassandra.yaml的配置项进行重点解释。 OptionDefaultValueauthenticatororg.apache.cassandra.auth.AllowAllAuthenticatorauthorityorg.apache.cassandra.auth.AllowAllAuthoritybroadcast_addresssameaslisten_addresscluster_nameTestCluster(这个名字修改了，cassandra-cli连接的时候，需要指定，默认就是连的这个。)column_index_size_in_.. 阅读全文

posted @ 2012-05-17 11:32 见路非道阅读(1038) 评论(0) 推荐(0)

Cassandra LeveledCompaction策略在SSD上对读性能的影响

摘要：有关Cassandra的Compaction机制写了好几篇博客了。好像像我这么纠结Compaction机制的比较少吧。我比较了不同Compaction策略对写性能的影响、读性能的影响，以及compaction本身的性能我也有测试。就是想以具体的数字，来证实Compaction机制的特点，从而找到合适的应用场景。 LeveledCompaction是1.0以后，参考Leveldb实现的一个机制。确实有很多好处，如下：保证90%的读只读一个sstable文件，最坏的情况，当单机有10T数据的时候，7（7层）个sstable无用数据（删除的，过期的）比较少，最多占到10%Compaction空间开销阅读全文

posted @ 2012-05-16 14:11 见路非道阅读(422) 评论(0) 推荐(0)

Cassandra LeveledCompaction在SSD上对写性能的影响

摘要：使用YCSB，value大小为1k。入8000w数据。统计数据如下：综合数据 RunTime(ms)3773307Throughput(ops/sec)21201.56Operations80000000AverageLatency(us)4691.972MinLatency(us)119MaxLatency(us)464015095thPercentileLatency(ms)799thPercentileLatency(ms)28OPS数据延迟数据延迟和OPS都要比SizeTieredCompaction好。OPS要高5000OPS。阅读全文

posted @ 2012-05-15 17:30 见路非道阅读(313) 评论(0) 推荐(0)

Cassandra SizeTierCompaction在SSD上对读的影响

摘要：在8000w数据规模上，跑了10w个查询，因为数据生成是有YCSB完成的，而且，key也是随机生成的。重复程度不能够模拟真实的应用。测试的结果无法真实表现出Compaction策略之间的差异。不过，我会验证以下。这次是对SizeTiered影响的测试。SSD随机读真的太给力了。是粗略估计HDD的100倍。测试结果如下：冷启动综合数据 RunTime(ms)103728Throughput(ops/sec)9640.598Operations1000000AverageLatency(us)10313.15MinLatency(us)237MaxLatency(us)142498895thP.. 阅读全文

posted @ 2012-05-15 14:56 见路非道阅读(253) 评论(0) 推荐(0)

Cassandra SizeTieredCompaction在SSD上对写性能的影响

摘要：之前测试过在HDD上的表现，接下来的一组数据是在SSD上表现。这篇博客主要是测试写性能，众所周知，顺序写在SSD上，与HDD上对比，并没有太多的优势，不过，顺序写可以充分的利用SSD，延长SSD的寿命。数据如下：综合数据 RunTime(ms)4381994Throughput(ops/sec)15974.46Operations100000000AverageLatency(us)6237.33MinLatency(us)107MaxLatency(us)660471595thPercentileLatency(ms)1299thPercentileLatency(ms)58OPS情况延迟. 阅读全文

posted @ 2012-05-15 11:24 见路非道阅读(320) 评论(0) 推荐(0)

做系统需要知道的一组数字

摘要：这张图片是在微博上转过来的，以备我自己查看。这张图上的数据，应该印在脑子里。阅读全文

posted @ 2012-05-14 19:04 见路非道阅读(142) 评论(0) 推荐(0)

见路不走