从Social Media海量数据中寻找专家的五大手法

郑昀 20090901

从海量信息中寻找专家,发掘或放大他们的影响力,在Blog 时代甚至BBS 时代,就有不少努力。当然,那时基本靠人或编辑。中国的编辑们最喜欢做这样的事情,罗列一堆的专家或写手作为导航入口。然而随着时间流逝,如果你逐个名字点击过去,要么久已不更新,要么已经变成了XX营销的软文集散地,要么还在更新但味同嚼蜡。

在Social 时代,由于传播更为迅速范围更广,用户也相对出于自愿传播,所以很多寻找专家的旧手法都可以通过更有效的数据获得验证。那些早期创了牌子后来又只打算借这块牌子赚钱的写手们,在Social 时代很容易被识破并被摒弃。

想像一下:

当你作为一个初学者,进入某一个领域时,你怎么才能知道应该向哪些人求教,或者远远地观察/订阅这些人的行为,以便更快更好地找到登堂入室的门径吗?

当你被外界宣传蛊惑,开始使用 stumbleupon 准备享受它的个性化推荐时,你知道还要订阅 stumbleupon 里哪些用户的收藏才能让你事半功倍吗?

下面会罗列 Finding Better Experts/Friends 的五大手法,请注意,前面提到的“写手”只是Experts的一小部分,每个垂直领域都会有很多专家,或声名显赫或不为人知或因复杂系统的默不作声而被隐藏。

 

手法一、SPEAR模式

新手法。

什么是专家?

定义好专家的特征即可。

你可以像美剧《犯罪心理.Criminal.Minds》那些BAU分析师们一样,给出几个可量化的变量,来衡量一个ID的所有网络行为。

比如,专家在某个领域阅读更深入,他的文章被更多本领域的专家推荐,他的话被更多人引用,等等。

SPEAR

SPEAR模式的提出者Michael G. Noll 和 Ching-man Au Yeung,主要是利用 Delicious 的海量数据,通过以下两个维度测量某一个给定“Topic(领域)”用户的专业性:

  • 用户收藏的文档质量与用户专业性之间有相关性。专家总是倾向于收藏更多高质量的文章。高质量文章被高专业技能的用户标记。衡量一个用户的 delicious 收藏文档的质量,至少表明了该用户的专业程度;
  • 专家应该是发现者,而不是趋势的跟随者。专家应该是第一个收藏和标记高质量文章的人,从而召唤起社区内其他用户的围观。用户发现优质内容越早,表明该用户专业程度越高。大量用户是从彼此的分享和推荐来学习的,而并不总是依靠自己,比如搜索,来发现新知识。总是分享火星段子的用户,通常是没有幽默感的人。所以,要区分“Discoverers”和“Followers”。

 

这就是SPEAR模式,即SPamming-resistant Expertise Analysis and Ranking,一个专家分析和打分机制。

微博客的Finding Better Experts

这个机制也可以应用到微博客世界。在 Twitter上,每天有无数的人推荐链接。除了爆炸性新闻或段子外,毫无疑问:

  • 推荐链接水准高且稳定的用户,通常专业技能也较高。得到的回报就是 Followers 数也会比较高,至少与同一专业领域的其他用户比较。但 “not vice versa ”,Followers数字高,可不代表他的专业技能高。
  • 你也会发现,第一批推荐某一个领域的最好最新文章的,通常是这个领域做得最好的人。在几乎整个社区都知道了之后,仍然姗姗来迟的推荐者,往往是该领域的默默无闻的耕耘者。

在中国

SPEAR 通过收藏某一篇文章的时间,把用户分成了“Discoverers”和“Followers”,无疑,Followers专业性不会很高,这个特性倒是蛮符合中国,可以照搬。

但在中国是否适用“专家总是倾向于收藏更多高质量的文章”呢?

这取决于文档质量评价体系是否能在中国良好地建立。

参考:

1、RWW的《Finding Better Friends: Delicious and SPEAR》(以及中译本);

2、How SPEAR Identifies Domain Experts within Delicious 。

3、Presentation: Telling Experts from Spammers (Talk)

 

手法二、Technorati模式

    古老的手法。

博客的权威度和等级

    我只是用 Technorati模式来涵盖这种操作手法,毕竟 Technorati 曾经很有效地给世界上大多数Blogger打过分。

    点击 Top 100 blogs (需穿墙),能看到全球范围内Authority(最有影响力)的Blogs,前三名是:

huffingtonpost.com 16854分,techcrunch.com 10859分,mashable.com 9408分。

    2007年时 Technorati Blog 曾经解释过 Authority 和 Rank 是如何计算的(需穿墙):

    Technorati Authority 是过去六个月内,指向一个站点的Blogs链接数。只不过,Technorati 的计算单位是Blogs,也就是说一个博客虽然在自己的不同博客文章中把你的某个Blog链接贴了成百上千次,但在 Technorati 这里只按一次计算。

    Technorati Rank 就是你在 Technorati Authority 体系中的位置,最高的 huffingtonpost 是#1,techcrunch是 #2,以此类推。

    是的,通过对博客文章中的链接检测,限定时间范围,限定计算单元,确实能把Better Experts挑出来,加以良好的自动分类,至少能保证榜单上罗列的是真正的Experts。

    但在中国一个博主会拥有十几个甚至几十个镜像博客是很正常的,博客正文不爱引用不加链接也是很正常的。所以,此手法难操作。

 

手法三、Link Popularity模式

年代久远的手法。

人气评估

在 Blog时代,根据某Blog在Google等搜索引擎里的索引量,在网摘网站中的收藏量,根据所能找到的反向链接数目,根据RSS订阅数,以权重公式调和,就可以排列出一个人气榜单。

车东很久以前写过一篇《如何评价一个网站的人气(Link Popularity Check)》 ,介绍通过搜索引擎的一些隐含命令评价网站的“人气”。我在06年时据此公布了一小段程序:《[Python]检查你的站点的人气》。

本手法与手法二的区别在于,虽然都属于反向链接检测,但手法三的范围更大,隐喻更多。通过对不同来源的数据区分,可以衍生出更多种类的Rank。

 

手法四、Twitter模式

这是 Twitter 独有数据造就的手法。

Twitter数据

Twitter有很多数据维度,能较为逼真地测量一个用户。通常会有以下数据:

  • 用户的 followers 数;
  • 用户的 followings 数;
  • 用户被 retweet 的次数;
  • 用户 retweet 他人的次数;
  • 用户被@的次数;
  • 用户发言频率;
  • 用户注册时间。

利用这些数据,计算用户Rank、给出用户排名的应用有:

  • Ryo Chijiiwa的 TwitterRank
  • 可以给出某一个地区Twitter用户排名的 Twitterholic (只是根据Twitter中你设置的Location字段汇总的,排名因素是你的Followers和Friends数量);
  • Twitalyzer 给出的用户五项指标:Influence(影响力)、Signal(信噪比)、Generosity(贡献率)、Velocity(发言频率)、Clout(传播率)。

本手法只适用于微博客。因为大约只有Twitter才会提供如此全面的开放数据,仅仅依靠 Twitter 内部数据,不需要外部链接的评价,就可以推选出 Experts 或 Better Friends。

 

手法五、信用模式

    某些特殊领域,一个专家的网络言论可以与实际对比,建立一个虚拟信用体系。如果专家说的和实际总是一致,那么显然他的信用会越来越好。比如股票领域,有研究称,可以大规模采样用户的帖子或问答,用语义分析出他对后市的倾向性,然后与后市真正的走势做对比,从而对每一个采样用户建立信用历史,那些总是错误预测形势的、“一辈子唱空”的“伪专家”就无法遁形了。

    另外一种做法是,针对收集到的用户名,在微博客中搜索提及该用户名的Tweets,语义分析人们是用什么定语或名词形容该用户的,从而建立一个评级。当然这种做法还是属于“情感分析”,也并不限定于只分析人名,项目名或公司名都可以的。比如收集开源项目评价的 http://sentimenthub.com/ ,如果在它的英文情感分析基础之上,再细分指标和评级,应该可以给出一个公式,给出开源项目的受欢迎程度排名。

 

    好了,以上就是我所见到的 Finding Better Experts/Friends 五大手法。

郑昀 北京报道 20090902

我还推荐您阅读以下文章:

1、Social Media附加价值开发的四大模式

2、分析人的网络轨迹和碎片之四大模式

3、[语义]情感分析方向近况·0908

posted @ 2009-09-03 02:16  旁观者  阅读(...)  评论(...编辑  收藏