社交圈子挖掘尝试

微博构成了一个社交网络,链接非常复杂,学术一点说叫做复杂网络。在社交网络中发现圈子,其实就是在复杂网络中发现社团结构,有很多方法可以依循。但是目前这些方法,都有各自的优缺点,没有相对完美的算法。从今天开始尝试学习、分析这些算法的特点,并且希望能够进行不遗余力的改进。 在一个复杂的社交网络中,有两个特点,首先要很清楚,才能够判断挖掘的圈子是否合理,是否贴合实际:

  1. 层次性:在社交网络中,圈子、或者社团结构,往往都是可以分为子圈子、子社团结构的,可能是由于选取某系的某种不同程度。
  2. 重叠性:由于人的多面的属性,在实际的社交网络中,圈子往往是重叠的。

根据以上两个重要的特点,分别有比较典型的代表算法:

  1. Newman’s fast algorithm
  2. k-clique算法

当然还有很多其他的算法,很多的研究人多做了很多的尝试,第一个没有选择GN算法,是因为Newman's fast algorithm在几乎可以保证GN的准确率的情况下,得到了近乎线性的计算复杂度。 这次,我主要讨论k-clique算法。简单介绍k-clique:clique在复杂网络中翻译为“派系”,在数据结构中翻译为“团”,刷过ACM的同学都知道,有的题目就是求最大团(max clique),其实这就是k-clique挖掘的很好的基础。clique是一个全耦合网络,通俗一点,可称为完全子图,任意连点之间都有直接连接的边。k-clique就是有k个节点的团(我喜欢称之为团,比较简洁,没有政治色彩)。如果连个相邻的k-clique,有k - 1个节点是重复的,那么这连个k-clique是联通的,知道最大的联通的k-clique组成的子结构,就是一个社团。 这里我主要使用networkx工具,跑一下我的关注,分析一下k-clique算法的效果,圈子划分如下:

围棋搜索引擎 周运洪yunhong 吴尔平-andy 摇摆巴赫 KissDev forchenyun 张夏天_机器学习 -林鸿飞- solochar 杨先锋UU 张永生 谭卫国Forest 王志超 淘解伦 ICT_朱亚东 liangjz bicloud lordhong 张刚-bert gycheng Humyy 鱼晓-五毛 张某_ICT guoyipeng TreapDB 蕃茄me 张杰_NoahArk 搜狗郭昂 kafka0102 杨彦闯 梁斌penny THUIRDB 淘宝虚云 郭嘉丰_ICT 公帅_ICT 创业-育森 sunli1223 独孤虎-李利鹏 gongbin 创业者徐仁禄 Abioy 任勇_东京大学 李-曙光 foxmailed 炼心-自强 Firewind 四正 wenzhong 丁国栋_ICT __那谁__ 蒋涛CSDN 拓尔思 常佳佳-Jason 王斌_ICTIR 程序媛 詹剑锋_中科院 GUCAS老H 宋波simba 丕子 梁公军 fishermen 潘少宁_腾讯_LAMP人 leeyanva 雨前LYQ IR-Lucene 杨逍Venus 沈华伟_ICT 霍泰稳 贺志明_ICT yaronli bian fengyuncrawl nzinfo 孟二利 雨梦_yumengkk OnlyXP 王联辉 IT技术博客大学习 TimYang 威廉他 arpro 九州-姬野 张颖峰 ElmerZhang 关毅的围脖 马金柱focus 罗大维 新IT民工 liudaoru 王栋PKU 淘宝日照 猎头-Kevin 爱的马斯特 武卫东 数据挖掘_PHP 幸运coming琳琳 网路冷眼 橘子郡_guy Binos_ICT BetaCafe AmyDeng_Fusionio soker jingmouren sigmod 影子猎手 zangxt 佟怡峦 bodd 图灵杨海玲 顾平Baidu 视觉研究 即刻搜索JIKE 李猛-Mn MapReduce 张凯1976 淘宝褚霸 XiaoJunHong 肖瑞麟Jerry 凌峰TB 微博Koth 魔时科技张首华 timo 万树-杨
alue-fabre 公帅_ICT 桂林山水78 张某_ICT bill323 TreapDB
张某_ICT 刘大鸿 贺志明_ICT 东坡门人 冷建成 荣名为宝
悦晓0709 豆爸何锐 loveEmma guoyipeng 鱼晓-五毛 张某_ICT 袁小晕 王大美 即刻搜索JIKE yellowleaf2010

  这是我计算我的关注的5-clique的结果,一共四个圈子,有三个比较靠谱,有一个非常大的,很不靠谱。这个大的主要是技术类的关注,但是由于关注对象之间的边密度比较大,所以k-clique算法没有划分出来,而且有几个圈子也是有重叠的,符合实际的特点。所以k-clique能够处理重叠的圈子,对于小圈子的准确率比较高,对于连接相对较少的网络有较好效果。 今天只是简单尝试了一个k-clique算法,还需要继续努力,分析需要更深入。也需要将自己的一些想法,即时实践。欢迎讨论。 注:看来还是要找个画图的利器,networkx好像可以,图比表的展现方式直接多了。

posted on 2012-02-25 10:00  sing1ee  阅读(1748)  评论(0)    收藏  举报