11 2012 档案

large graph挖掘的技术基础
摘要:我一直在做社交网络的挖掘工作,深感目前的一些技术并不能满足社交挖掘的需要。我并没有用过太多的工具,而且图计算的平台也没有用过,涉及到大规模数据的离线分析,主要是依赖hadoop。不过,这并不妨碍,我从挖掘需求的角度来探讨:社交挖掘到底需要哪些技术基础,需要一些什么样的工具。题目中有一个词:large graph。也有很多人认为是big graph。我之所以改变称谓,主要的原因在我前面的博客中有体现。因为big data中的个体之间,往往具有关系,这个样就组成了一个graph,并且这是个超大的graph。元数据信息要比单纯的big data要高几个量级。所以,为了进一步体现graph之大,我称之 阅读全文

posted @ 2012-11-18 18:45 sing1ee 阅读(3746) 评论(27) 推荐(4)

社交圈子挖掘的问题
摘要:这是博客搬家到博客园之后的第一篇文章,也是我最近对微博社交圈子挖掘的一些思考和总结,最近主要的思考和研究,主要针对一下几个问题:层次性重叠性ego network有向社交网络带权社交网络统一解决上面的问题(!)这几个,都是社交圈子挖掘时候我们所面临的问题,在挖掘逐渐深入的过程中,问题会一个一个显现出来。我们就要一个一个解决掉,最后要能够统一在一个方法,一个框架中。我在思考的过程中,也阅读了之前的研究,绝大部分都是针对其中的一个问题,或者两个问题。很少能够解决全部的问题。那我下面尝试分析一下这些问题的产生原因,以及一些可尝试的方法。层次性层次性是一个社会属性,在我们的社交圈子中非常的明显。比如, 阅读全文

posted @ 2012-11-15 13:26 sing1ee 阅读(3441) 评论(7) 推荐(1)

大数据与复杂网络
摘要:写这篇文章,有两个原因: 看了李院士的《大数据研究的科学价值》,有些感触。 我自己做了一段时间社交,也有一些想法。 之前也写过复杂网络的东西,但是都非常肤浅,没有真正的理解复杂网络,近期看了一些资料,有了进一步的理解。 李院士的文章,是从科学家的角度,理解大数据的价值。从文章中,我了解到以下几点: 阅读全文

posted @ 2012-11-05 17:16 sing1ee 阅读(3989) 评论(8) 推荐(0)