摘要:这几天,我计算了几个领域的PageRank,包括投资人,程序员这种大的垂直领域,也包括“机器学习”“数据挖掘”等这样的小的领域。在挖掘的过程中,也遇到很多有意思的事情。不过,做这个,并不是要给谁排座次,只是想尝试挖掘出来一些有意思的东西。下面是我通过“机器学习”“数据挖掘”“信息检索”等关键字找出来的一批人,然后再计算排名得到的结果。后面一列是粉丝数。不过一些新开通微博的牛人:@余凯 @老师木 尚不在其中。我的数据是之前的一个快照。这样的一个排序,和粉丝的数量关系就不太一致了。所以,垂直领域,还是能够做出很有意思的东西的。可以进一步挖掘,到底哪些因素影响了某一排名。张栋_机器学习 48966.
阅读全文
摘要:这个想法很早就有了,因为我是做搜索引擎背景的,能够深刻的理解PageRank算法在搜索引擎中的重要性,绝对的核心技术之一。不过,这篇博客,并不打算介绍PageRank算法的原理,而是,让我们来看看,这个重要的算法,在新浪微博中的应用。网页与网页之间,通过链接关系传递着重要性。在微博中呢?这个也是成立的。不过在微博中,情况要更复杂一些。所以,我在微博中指出,我并不赞同计算全量的PageRank(即所有人都参与计算)。原因有以下几点:人的主题属性和网页不同。网页往往只有一个主题,而人的主题属性比较多,我们可以将主题属性理解为人的兴趣,一般而言,人的兴趣,会不止一个。人的兴趣会随着时间不断变化,而大
阅读全文
摘要:我一直在做社交网络的挖掘工作,深感目前的一些技术并不能满足社交挖掘的需要。我并没有用过太多的工具,而且图计算的平台也没有用过,涉及到大规模数据的离线分析,主要是依赖hadoop。不过,这并不妨碍,我从挖掘需求的角度来探讨:社交挖掘到底需要哪些技术基础,需要一些什么样的工具。题目中有一个词:large graph。也有很多人认为是big graph。我之所以改变称谓,主要的原因在我前面的博客中有体现。因为big data中的个体之间,往往具有关系,这个样就组成了一个graph,并且这是个超大的graph。元数据信息要比单纯的big data要高几个量级。所以,为了进一步体现graph之大,我称之
阅读全文
摘要:这是博客搬家到博客园之后的第一篇文章,也是我最近对微博社交圈子挖掘的一些思考和总结,最近主要的思考和研究,主要针对一下几个问题:层次性重叠性ego network有向社交网络带权社交网络统一解决上面的问题(!)这几个,都是社交圈子挖掘时候我们所面临的问题,在挖掘逐渐深入的过程中,问题会一个一个显现出来。我们就要一个一个解决掉,最后要能够统一在一个方法,一个框架中。我在思考的过程中,也阅读了之前的研究,绝大部分都是针对其中的一个问题,或者两个问题。很少能够解决全部的问题。那我下面尝试分析一下这些问题的产生原因,以及一些可尝试的方法。层次性层次性是一个社会属性,在我们的社交圈子中非常的明显。比如,
阅读全文
摘要:前些天在微博上有一道逆天的幼儿园题目,如下图: 围脖上有很多人猜测答案,更有趣的是,很多人提出用机器学习的方法解决。很有趣,也符合我学习的方法,这样,更有利于学习。遂决定尝试一下。 代码如下:#!/usr/bin/python#-*- encoding: utf-8 -*- '''Created on 2012-6-22@author: zhangcheng'''from numpy import loadtxt, zeros, ones, array, mean, stddef feature_normalize(X): mean_r = []
阅读全文
摘要:这是我在一篇论文中看到的思路,与之前的一些思路有比较大的不同。论文没有通篇看完,只看到算法描述部分,我就迫不及待的实验,对于同学,同事圈子的挖掘有一定的效果。我之前了解的一些算法的思路可以总结如下:从节点开始,每个节点作为一个社团圈子进行合并从整个网络开始,通过某些算法选取某些边,进行分割从最大团开始,选择合适的相似度计算的方法,对最大团进行合并我比较关注圈子之间有重叠的情况。前两种,我目前实验做得少,主要集中在第三种,及其扩展。第三种思路目前比较经典的就是k-clique算法,相似度计算的依据很强,很直接,就是要有k-1公共节点。后来有几篇文章,也是从最大团开始做的。我个人认为,是一个很好的
阅读全文