从Social Media海量数据中寻找专家的五大手法

郑昀 20090901

从海量信息中寻找专家，发掘或放大他们的影响力，在Blog 时代甚至BBS 时代，就有不少努力。当然，那时基本靠人或编辑。中国的编辑们最喜欢做这样的事情，罗列一堆的专家或写手作为导航入口。然而随着时间流逝，如果你逐个名字点击过去，要么久已不更新，要么已经变成了XX营销的软文集散地，要么还在更新但味同嚼蜡。

在Social 时代，由于传播更为迅速范围更广，用户也相对出于自愿传播，所以很多寻找专家的旧手法都可以通过更有效的数据获得验证。那些早期创了牌子后来又只打算借这块牌子赚钱的写手们，在Social 时代很容易被识破并被摒弃。

想像一下：

当你作为一个初学者，进入某一个领域时，你怎么才能知道应该向哪些人求教，或者远远地观察/订阅这些人的行为，以便更快更好地找到登堂入室的门径吗？

当你被外界宣传蛊惑，开始使用 stumbleupon 准备享受它的个性化推荐时，你知道还要订阅 stumbleupon 里哪些用户的收藏才能让你事半功倍吗？

下面会罗列 Finding Better Experts/Friends 的五大手法，请注意，前面提到的“写手”只是Experts的一小部分，每个垂直领域都会有很多专家，或声名显赫或不为人知或因复杂系统的默不作声而被隐藏。

手法一、SPEAR模式

新手法。

什么是专家？

定义好专家的特征即可。

你可以像美剧《犯罪心理.Criminal.Minds》那些BAU分析师们一样，给出几个可量化的变量，来衡量一个ID的所有网络行为。

比如，专家在某个领域阅读更深入，他的文章被更多本领域的专家推荐，他的话被更多人引用，等等。

SPEAR

SPEAR模式的提出者Michael G. Noll 和 Ching-man Au Yeung，主要是利用 Delicious 的海量数据，通过以下两个维度测量某一个给定“Topic（领域）”用户的专业性：

用户收藏的文档质量与用户专业性之间有相关性。专家总是倾向于收藏更多高质量的文章。高质量文章被高专业技能的用户标记。衡量一个用户的 delicious 收藏文档的质量，至少表明了该用户的专业程度；
专家应该是发现者，而不是趋势的跟随者。专家应该是第一个收藏和标记高质量文章的人，从而召唤起社区内其他用户的围观。用户发现优质内容越早，表明该用户专业程度越高。大量用户是从彼此的分享和推荐来学习的，而并不总是依靠自己，比如搜索，来发现新知识。总是分享火星段子的用户，通常是没有幽默感的人。所以，要区分“Discoverers”和“Followers”。

这就是SPEAR模式，即SPamming-resistant Expertise Analysis and Ranking，一个专家分析和打分机制。

微博客的Finding Better Experts

这个机制也可以应用到微博客世界。在 Twitter上，每天有无数的人推荐链接。除了爆炸性新闻或段子外，毫无疑问：

推荐链接水准高且稳定的用户，通常专业技能也较高。得到的回报就是 Followers 数也会比较高，至少与同一专业领域的其他用户比较。但 “not vice versa ”，Followers数字高，可不代表他的专业技能高。
你也会发现，第一批推荐某一个领域的最好最新文章的，通常是这个领域做得最好的人。在几乎整个社区都知道了之后，仍然姗姗来迟的推荐者，往往是该领域的默默无闻的耕耘者。

在中国

SPEAR 通过收藏某一篇文章的时间，把用户分成了“Discoverers”和“Followers”，无疑，Followers专业性不会很高，这个特性倒是蛮符合中国，可以照搬。

但在中国是否适用“专家总是倾向于收藏更多高质量的文章”呢？

这取决于文档质量评价体系是否能在中国良好地建立。

参考：

1、RWW的《Finding Better Friends: Delicious and SPEAR》（以及中译本）；

2、How SPEAR Identifies Domain Experts within Delicious 。

3、Presentation: Telling Experts from Spammers (Talk)

手法二、Technorati模式

古老的手法。

博客的权威度和等级

我只是用 Technorati模式来涵盖这种操作手法，毕竟 Technorati 曾经很有效地给世界上大多数Blogger打过分。

点击 Top 100 blogs （需穿墙），能看到全球范围内Authority（最有影响力）的Blogs，前三名是：

huffingtonpost.com 16854分，techcrunch.com 10859分，mashable.com 9408分。

2007年时 Technorati Blog 曾经解释过 Authority 和 Rank 是如何计算的（需穿墙）：

Technorati Authority 是过去六个月内，指向一个站点的Blogs链接数。只不过，Technorati 的计算单位是Blogs，也就是说一个博客虽然在自己的不同博客文章中把你的某个Blog链接贴了成百上千次，但在 Technorati 这里只按一次计算。

Technorati Rank 就是你在 Technorati Authority 体系中的位置，最高的 huffingtonpost 是#1，techcrunch是 #2，以此类推。

是的，通过对博客文章中的链接检测，限定时间范围，限定计算单元，确实能把Better Experts挑出来，加以良好的自动分类，至少能保证榜单上罗列的是真正的Experts。

但在中国一个博主会拥有十几个甚至几十个镜像博客是很正常的，博客正文不爱引用不加链接也是很正常的。所以，此手法难操作。

手法三、Link Popularity模式

年代久远的手法。

人气评估

在 Blog时代，根据某Blog在Google等搜索引擎里的索引量，在网摘网站中的收藏量，根据所能找到的反向链接数目，根据RSS订阅数，以权重公式调和，就可以排列出一个人气榜单。

车东很久以前写过一篇《如何评价一个网站的人气(Link Popularity Check)》，介绍通过搜索引擎的一些隐含命令评价网站的“人气”。我在06年时据此公布了一小段程序：《[Python]检查你的站点的人气》。

本手法与手法二的区别在于，虽然都属于反向链接检测，但手法三的范围更大，隐喻更多。通过对不同来源的数据区分，可以衍生出更多种类的Rank。

手法四、Twitter模式

这是 Twitter 独有数据造就的手法。

Twitter数据

Twitter有很多数据维度，能较为逼真地测量一个用户。通常会有以下数据：

用户的 followers 数；
用户的 followings 数；
用户被 retweet 的次数；
用户 retweet 他人的次数；
用户被@的次数；
用户发言频率；
用户注册时间。

利用这些数据，计算用户Rank、给出用户排名的应用有：

Ryo Chijiiwa的 TwitterRank；
可以给出某一个地区Twitter用户排名的 Twitterholic (只是根据Twitter中你设置的Location字段汇总的，排名因素是你的Followers和Friends数量)；
Twitalyzer 给出的用户五项指标：Influence（影响力）、Signal（信噪比）、Generosity（贡献率）、Velocity（发言频率）、Clout（传播率）。

本手法只适用于微博客。因为大约只有Twitter才会提供如此全面的开放数据，仅仅依靠 Twitter 内部数据，不需要外部链接的评价，就可以推选出 Experts 或 Better Friends。

手法五、信用模式

某些特殊领域，一个专家的网络言论可以与实际对比，建立一个虚拟信用体系。如果专家说的和实际总是一致，那么显然他的信用会越来越好。比如股票领域，有研究称，可以大规模采样用户的帖子或问答，用语义分析出他对后市的倾向性，然后与后市真正的走势做对比，从而对每一个采样用户建立信用历史，那些总是错误预测形势的、“一辈子唱空”的“伪专家”就无法遁形了。

另外一种做法是，针对收集到的用户名，在微博客中搜索提及该用户名的Tweets，语义分析人们是用什么定语或名词形容该用户的，从而建立一个评级。当然这种做法还是属于“情感分析”，也并不限定于只分析人名，项目名或公司名都可以的。比如收集开源项目评价的 http://sentimenthub.com/ ，如果在它的英文情感分析基础之上，再细分指标和评级，应该可以给出一个公式，给出开源项目的受欢迎程度排名。

好了，以上就是我所见到的 Finding Better Experts/Friends 五大手法。

郑昀北京报道 20090902

我还推荐您阅读以下文章：

1、Social Media附加价值开发的四大模式；

2、分析人的网络轨迹和碎片之四大模式；

3、[语义]情感分析方向近况·0908。

posted @ 2009-09-03 02:16 老兵笔记阅读(8931) 评论(4) 收藏举报

刷新页面返回顶部

从Social Media海量数据中寻找专家的五大手法

公告