计算微博垂直领域的传播力排名

这几天,我计算了几个领域的PageRank,包括投资人,程序员这种大的垂直领域,也包括“机器学习”“数据挖掘”等这样的小的领域。在挖掘的过程中,也遇到很多有意思的事情。不过,做这个,并不是要给谁排座次,只是想尝试挖掘出来一些有意思的东西。

下面是我通过“机器学习”“数据挖掘”“信息检索”等关键字找出来的一批人,然后再计算排名得到的结果。后面一列是粉丝数。不过一些新开通微博的牛人:@余凯 @老师木 尚不在其中。我的数据是之前的一个快照。

这样的一个排序,和粉丝的数量关系就不太一致了。所以,垂直领域,还是能够做出很有意思的东西的。可以进一步挖掘,到底哪些因素影响了某一排名。

  1. 张栋_机器学习    48966
  2. 李航博士    20336
  3. 刘挺    44324
  4. 孙茂松    6147
  5. 沈浩老师    30236
  6. 马少平THU    6964
  7. 小蚊子乐园    37021
  8. 王斌_ICTIR   7032
  9. 刘铁岩    11266
  10. 王海峰_百度   10679
  11. 白硕    SH9930
  12. ICTCLAS张华平博士    4714
  13. 刘群MT-to-Death    3261
  14. 郑来轶    10421
  15. 张磊IDMer    6571
  16. 谢幸Xing    14620

综合一下这些事情,可以得出,对微博博主进行PageRank计算,得到的结果的含义:每一个博主的PageRank值,直接代表了博主的传播力。具体点说,就是博主发布一条微博消息,能够传播覆盖多少人,越多传播力越到,PageRank越大。很多同学会讲,这个不就是粉丝的数量么?不是的,粉丝本身有的质量高,有的质量低,实际上能够影响多少人,这个是需要衡量的。举一个例子,某一个博主300w粉丝,大部分买来的僵尸粉,而另外一个博主,只有3w,都是一个一个积累起来的。对于做营销而言,哪个更好呢?显然是后者。PageRank在一定程度上,就是起到了着作用。

PageRank是一种计算的框架,一种计算的方法。在这个框架下,我们可以有很多的改进,比如就拿上面的这些人来看,我们如果想要计算专家能力排序,应该怎么做呢?仅仅是有关注,就确切表示一条边么?其实在网络建模的过程中,我们有很多的基础可以用来加强模型,或者利用不同的信息,为不同目的建立模型。比如,这条关注的边强度有多大呢?如何来衡量,一个很有用的点就是微博上两个人之间的交互信息。这个很重要,新浪可以做很多事情。

 

社交网络时代,数据为王。我们有很多工具,很多算法可以来做挖掘,但是,没有数据,都是白费心思的。尤其是涉及到网络的一些挖掘,网络规模达到一定程度,好多性质是不会涌现出来的。

希望和更多的同学一起交流。

计算的工具依然是graphchi,非常好用。限定领域这块儿,我做的比较粗糙,目前就是通过关键字去检索。只要匹配上了,我就认为这个博主是该领域相关的。这部分,也是需要一些工作量的。也是很有意思,很有价值的一块儿工作。

【完】

posted on 2012-12-17 11:45  sing1ee  阅读(2204)  评论(12编辑  收藏  举报