12 2012 档案

计算微博垂直领域的传播力排名
摘要:这几天,我计算了几个领域的PageRank,包括投资人,程序员这种大的垂直领域,也包括“机器学习”“数据挖掘”等这样的小的领域。在挖掘的过程中,也遇到很多有意思的事情。不过,做这个,并不是要给谁排座次,只是想尝试挖掘出来一些有意思的东西。下面是我通过“机器学习”“数据挖掘”“信息检索”等关键字找出来的一批人,然后再计算排名得到的结果。后面一列是粉丝数。不过一些新开通微博的牛人:@余凯 @老师木 尚不在其中。我的数据是之前的一个快照。这样的一个排序,和粉丝的数量关系就不太一致了。所以,垂直领域,还是能够做出很有意思的东西的。可以进一步挖掘,到底哪些因素影响了某一排名。张栋_机器学习 48966. 阅读全文

posted @ 2012-12-17 11:45 sing1ee 阅读(2232) 评论(12) 推荐(1)

在微博中应用PageRank算法
摘要:这个想法很早就有了,因为我是做搜索引擎背景的,能够深刻的理解PageRank算法在搜索引擎中的重要性,绝对的核心技术之一。不过,这篇博客,并不打算介绍PageRank算法的原理,而是,让我们来看看,这个重要的算法,在新浪微博中的应用。网页与网页之间,通过链接关系传递着重要性。在微博中呢?这个也是成立的。不过在微博中,情况要更复杂一些。所以,我在微博中指出,我并不赞同计算全量的PageRank(即所有人都参与计算)。原因有以下几点:人的主题属性和网页不同。网页往往只有一个主题,而人的主题属性比较多,我们可以将主题属性理解为人的兴趣,一般而言,人的兴趣,会不止一个。人的兴趣会随着时间不断变化,而大 阅读全文

posted @ 2012-12-13 18:44 sing1ee 阅读(7671) 评论(39) 推荐(2)