随笔分类 -  社交挖掘

计算微博垂直领域的传播力排名
摘要:这几天,我计算了几个领域的PageRank,包括投资人,程序员这种大的垂直领域,也包括“机器学习”“数据挖掘”等这样的小的领域。在挖掘的过程中,也遇到很多有意思的事情。不过,做这个,并不是要给谁排座次,只是想尝试挖掘出来一些有意思的东西。下面是我通过“机器学习”“数据挖掘”“信息检索”等关键字找出来的一批人,然后再计算排名得到的结果。后面一列是粉丝数。不过一些新开通微博的牛人:@余凯 @老师木 尚不在其中。我的数据是之前的一个快照。这样的一个排序,和粉丝的数量关系就不太一致了。所以,垂直领域,还是能够做出很有意思的东西的。可以进一步挖掘,到底哪些因素影响了某一排名。张栋_机器学习 48966. 阅读全文

posted @ 2012-12-17 11:45 sing1ee 阅读(2228) 评论(12) 推荐(1)

在微博中应用PageRank算法
摘要:这个想法很早就有了,因为我是做搜索引擎背景的,能够深刻的理解PageRank算法在搜索引擎中的重要性,绝对的核心技术之一。不过,这篇博客,并不打算介绍PageRank算法的原理,而是,让我们来看看,这个重要的算法,在新浪微博中的应用。网页与网页之间,通过链接关系传递着重要性。在微博中呢?这个也是成立的。不过在微博中,情况要更复杂一些。所以,我在微博中指出,我并不赞同计算全量的PageRank(即所有人都参与计算)。原因有以下几点:人的主题属性和网页不同。网页往往只有一个主题,而人的主题属性比较多,我们可以将主题属性理解为人的兴趣,一般而言,人的兴趣,会不止一个。人的兴趣会随着时间不断变化,而大 阅读全文

posted @ 2012-12-13 18:44 sing1ee 阅读(7666) 评论(39) 推荐(2)

large graph挖掘的技术基础
摘要:我一直在做社交网络的挖掘工作,深感目前的一些技术并不能满足社交挖掘的需要。我并没有用过太多的工具,而且图计算的平台也没有用过,涉及到大规模数据的离线分析,主要是依赖hadoop。不过,这并不妨碍,我从挖掘需求的角度来探讨:社交挖掘到底需要哪些技术基础,需要一些什么样的工具。题目中有一个词:large graph。也有很多人认为是big graph。我之所以改变称谓,主要的原因在我前面的博客中有体现。因为big data中的个体之间,往往具有关系,这个样就组成了一个graph,并且这是个超大的graph。元数据信息要比单纯的big data要高几个量级。所以,为了进一步体现graph之大,我称之 阅读全文

posted @ 2012-11-18 18:45 sing1ee 阅读(3743) 评论(27) 推荐(4)

社交圈子挖掘的问题
摘要:这是博客搬家到博客园之后的第一篇文章,也是我最近对微博社交圈子挖掘的一些思考和总结,最近主要的思考和研究,主要针对一下几个问题:层次性重叠性ego network有向社交网络带权社交网络统一解决上面的问题(!)这几个,都是社交圈子挖掘时候我们所面临的问题,在挖掘逐渐深入的过程中,问题会一个一个显现出来。我们就要一个一个解决掉,最后要能够统一在一个方法,一个框架中。我在思考的过程中,也阅读了之前的研究,绝大部分都是针对其中的一个问题,或者两个问题。很少能够解决全部的问题。那我下面尝试分析一下这些问题的产生原因,以及一些可尝试的方法。层次性层次性是一个社会属性,在我们的社交圈子中非常的明显。比如, 阅读全文

posted @ 2012-11-15 13:26 sing1ee 阅读(3438) 评论(7) 推荐(1)

大数据与复杂网络
摘要:写这篇文章,有两个原因: 看了李院士的《大数据研究的科学价值》,有些感触。 我自己做了一段时间社交,也有一些想法。 之前也写过复杂网络的东西,但是都非常肤浅,没有真正的理解复杂网络,近期看了一些资料,有了进一步的理解。 李院士的文章,是从科学家的角度,理解大数据的价值。从文章中,我了解到以下几点: 阅读全文

posted @ 2012-11-05 17:16 sing1ee 阅读(3972) 评论(7) 推荐(0)

社交圈子挖掘小结
摘要:本来是写了一条微博,可是心里总是有点不踏实,还是在这里写写,留个纪念。微博写多了,博客就少了,这个不太好。这篇博客是对之前做的社交圈子挖掘方面尝试的总结,这个工作并没有深入太多。因为没有实际需求的驱动,没有做深。不过还是有些心得,记录下来,以后捡起来也方便,或者最好的情况,可以对后面的同学有些启发。 社交圈子挖掘,这里的圈子主要有两种:线下真实的朋友圈子(不用诧异,真的就是如此)还有兴趣导向的“圈子”为什么会有两种不同的呢?因为微博具备这两个特点,在国内,微博不仅仅是一个社交媒体,而且也是一个sns社区。这就产生了这两种不同的圈子,sns的特性,似乎在腾讯微博更加显著。这两类圈子都很有用,对于 阅读全文

posted @ 2012-06-21 17:36 sing1ee 阅读(707) 评论(8) 推荐(0)

社交圈子挖掘的一种快速的方法--label propagation
摘要:这几天做复杂网络相关的学习研究,越发觉得网络科学的内容会越来越丰富,应用会越来越多。会为人类进步,产生巨大的贡献。我又激动了。 这篇博客介绍的方法,可以应用在大规模的复杂网络中,有着近乎线性的复杂度。这篇博客继续介绍复杂网络中社团结构发现的一种方法--label propagation(简称LP)。与之前博客中介绍的local_fitness方法类似,这个方法也是从局部结构信息出发。LP方法的提出,主要是综合考虑了以前的方法有以下两个弊端:很多方法需要有先验的知识:社团数目,中心点,clique大小等等之前的一些方法,在性能上复杂度都比较高为了解决以上的两个问题,论文中提出label prop 阅读全文

posted @ 2012-03-15 17:20 sing1ee 阅读(4978) 评论(2) 推荐(0)

社交网络挖掘的另一个工具-igraph
摘要:工欲善其事,必先利其器最近一直在做社交网络挖掘相关的工作,一直用的networkx这个python工具,享受python带来的便利的同时,要忍受networkx的性能问题。当分析的网络较小的时候,networkx没有问题,但是节点有几百万的时候,networkx真的很慢。所以,我就逐渐使用igraph。igraph是c实现的,性能比networkx肯定要好,而且,提供的api更丰富一些,同时支持python和R的接口,使用起来很方便。具体的区别,我会在使用过程中不断总结,并且和大家进行分享。下载下载igraph:点击这里。下载python接口:点击这里。这两个连接,都是针对0.5.4版本的,1 阅读全文

posted @ 2012-03-14 11:41 sing1ee 阅读(2065) 评论(0) 推荐(0)

微博社交圈子挖掘的一种有趣的思路
摘要:这是我在一篇论文中看到的思路,与之前的一些思路有比较大的不同。论文没有通篇看完,只看到算法描述部分,我就迫不及待的实验,对于同学,同事圈子的挖掘有一定的效果。我之前了解的一些算法的思路可以总结如下:从节点开始,每个节点作为一个社团圈子进行合并从整个网络开始,通过某些算法选取某些边,进行分割从最大团开始,选择合适的相似度计算的方法,对最大团进行合并我比较关注圈子之间有重叠的情况。前两种,我目前实验做得少,主要集中在第三种,及其扩展。第三种思路目前比较经典的就是k-clique算法,相似度计算的依据很强,很直接,就是要有k-1公共节点。后来有几篇文章,也是从最大团开始做的。我个人认为,是一个很好的 阅读全文

posted @ 2012-03-02 16:25 sing1ee 阅读(1076) 评论(8) 推荐(0)

微博社交圈子的评价
摘要:这几天不断尝试社交圈子挖掘的算法,不断改进算法,产生了很多的结果。对于我自己的圈子,我人工评价即可知道效果如何,但是如果测试其他人的数据,总是请同学帮忙验证,有些过于麻烦,而且,这样的人工评价,不利于比较。所以,我需要一个相对准确的方法来评价我挖掘出的圈子的效果如何。 我经常听有人说圈子的“准确率”,“召回率”如何如何。但是,我觉得这个也不是很直观,因为这个需要标注数据,来进行测评。那我们能否从网络拓扑结构本身入手,进行判断呢?当然可以,就是:quality function。 这个思路很早就提出来了。要分析这个思路,还要先说说社团结构的定义。对于社团结构,一直没有很好的定义,尤其是量化的定义 阅读全文

posted @ 2012-02-29 16:21 sing1ee 阅读(298) 评论(0) 推荐(0)

微博社交圈子挖掘所面临的困难
摘要:我很喜欢《亮剑》这部电视剧,李云龙经常说:我们不能打了半天,不知道敌人是谁。所以 ,这一篇文章,我简单分析一下,微博社交圈子挖掘目前遇到的问题是什么?不能分析了半天,只注重结果如何如何,却忘记了最根本的问题、难题是什么。 复杂网络中社团结构发现的研究已经有好多年了,有分裂的方法,凝聚的方法,基于网络动力学的方法,还有很多别的奇怪的方法。这些方法都有各自适应的解决的网络结构。比如前一篇博客中提到的两点:层次性重叠性一些方法层次性处理的很好,如GN,Newman‘s fast algorithm等,有些重叠性处理的非常好,如k-clique方法比较典型。后来,研究人员相继提出一些方法,将上面的两个 阅读全文

posted @ 2012-02-28 15:04 sing1ee 阅读(1006) 评论(0) 推荐(0)

社交圈子挖掘尝试
摘要:微博构成了一个社交网络,链接非常复杂,学术一点说叫做复杂网络。在社交网络中发现圈子,其实就是在复杂网络中发现社团结构,有很多方法可以依循。但是目前这些方法,都有各自的优缺点,没有相对完美的算法。从今天开始尝试学习、分析这些算法的特点,并且希望能够进行不遗余力的改进。 在一个复杂的社交网络中,有两个特点,首先要很清楚,才能够判断挖掘的圈子是否合理,是否贴合实际:层次性:在社交网络中,圈子、或者社团结构,往往都是可以分为子圈子、子社团结构的,可能是由于选取某系的某种不同程度。重叠性:由于人的多面的属性,在实际的社交网络中,圈子往往是重叠的。根据以上两个重要的特点,分别有比较典型的代表算法:Newm 阅读全文

posted @ 2012-02-25 10:00 sing1ee 阅读(1746) 评论(0) 推荐(0)