随笔分类 -  大数据

在微博中应用PageRank算法
摘要:这个想法很早就有了,因为我是做搜索引擎背景的,能够深刻的理解PageRank算法在搜索引擎中的重要性,绝对的核心技术之一。不过,这篇博客,并不打算介绍PageRank算法的原理,而是,让我们来看看,这个重要的算法,在新浪微博中的应用。网页与网页之间,通过链接关系传递着重要性。在微博中呢?这个也是成立的。不过在微博中,情况要更复杂一些。所以,我在微博中指出,我并不赞同计算全量的PageRank(即所有人都参与计算)。原因有以下几点:人的主题属性和网页不同。网页往往只有一个主题,而人的主题属性比较多,我们可以将主题属性理解为人的兴趣,一般而言,人的兴趣,会不止一个。人的兴趣会随着时间不断变化,而大 阅读全文

posted @ 2012-12-13 18:44 sing1ee 阅读(7671) 评论(39) 推荐(2)

large graph挖掘的技术基础
摘要:我一直在做社交网络的挖掘工作,深感目前的一些技术并不能满足社交挖掘的需要。我并没有用过太多的工具,而且图计算的平台也没有用过,涉及到大规模数据的离线分析,主要是依赖hadoop。不过,这并不妨碍,我从挖掘需求的角度来探讨:社交挖掘到底需要哪些技术基础,需要一些什么样的工具。题目中有一个词:large graph。也有很多人认为是big graph。我之所以改变称谓,主要的原因在我前面的博客中有体现。因为big data中的个体之间,往往具有关系,这个样就组成了一个graph,并且这是个超大的graph。元数据信息要比单纯的big data要高几个量级。所以,为了进一步体现graph之大,我称之 阅读全文

posted @ 2012-11-18 18:45 sing1ee 阅读(3746) 评论(27) 推荐(4)

大数据与复杂网络
摘要:写这篇文章,有两个原因: 看了李院士的《大数据研究的科学价值》,有些感触。 我自己做了一段时间社交,也有一些想法。 之前也写过复杂网络的东西,但是都非常肤浅,没有真正的理解复杂网络,近期看了一些资料,有了进一步的理解。 李院士的文章,是从科学家的角度,理解大数据的价值。从文章中,我了解到以下几点: 阅读全文

posted @ 2012-11-05 17:16 sing1ee 阅读(3986) 评论(8) 推荐(0)

Cassandra——一些比较和回想
摘要:这篇文章,包含了一些技术,包含了一些回忆。今天看了360的有关Cassandra实践的ppt,有一些感想。让我想起了两年前的一些事情,不过那时,我做的不是存储,而主攻的分布式检索。后来一系列变化,我也经历了很多,后来安下心来,做存储优化,优化的对象就是Cassandra,这也有一年多的时间。理论深厚,心得颇丰,可是仍然缺乏一线经验积累。看到360这么大规模的应用Cassandra,我很高兴。尽管,没有一同战斗,但是我很欣慰,很开心。Cassandra终于摆脱阴影,站起来了。Cassandra在360部署有1500台服务器。国内首屈一指了,还有一家部署规模在这一半左右。不过,单个Cassandr 阅读全文

posted @ 2012-09-18 16:03 sing1ee 阅读(1010) 评论(1) 推荐(0)

社交圈子挖掘小结
摘要:本来是写了一条微博,可是心里总是有点不踏实,还是在这里写写,留个纪念。微博写多了,博客就少了,这个不太好。这篇博客是对之前做的社交圈子挖掘方面尝试的总结,这个工作并没有深入太多。因为没有实际需求的驱动,没有做深。不过还是有些心得,记录下来,以后捡起来也方便,或者最好的情况,可以对后面的同学有些启发。 社交圈子挖掘,这里的圈子主要有两种:线下真实的朋友圈子(不用诧异,真的就是如此)还有兴趣导向的“圈子”为什么会有两种不同的呢?因为微博具备这两个特点,在国内,微博不仅仅是一个社交媒体,而且也是一个sns社区。这就产生了这两种不同的圈子,sns的特性,似乎在腾讯微博更加显著。这两类圈子都很有用,对于 阅读全文

posted @ 2012-06-21 17:36 sing1ee 阅读(707) 评论(8) 推荐(0)

被忽视的Compaction策略-有关NoSQL Compaction策略的一点思考
摘要:最近一直在做Cassandra优化相关的工作,大的方面就是主要考虑如何提升Cassandra的读性能。我主要集中在两点上:索引的优化Cassandra在多级存储介质的环境下的改进这 两点改进目前都已经做完,这里我的师弟也做出了突出的贡献。但是,还有一点,是我除了以上两点以外思考比较多的:就是Compaction操作。现在的 NoSQL数据库必须要有Compaction操作。但是似乎研究界,工业界对于Compaction的关注没有那么多。也可能是这个问题比较简单,大家 不愿意关注。也可能这个问题想要得到好的结果与实际付出不相符合。不管怎样,我还想结合这些天的测试和自己的思考,和大家一起讨论以下的 阅读全文

posted @ 2012-05-24 14:46 sing1ee 阅读(829) 评论(0) 推荐(0)