What’s popular的交叉验证模式

郑昀 20090919

有很多利用了群众性智慧的机器智能系统是回答 What’s popular 这个问题的，比如：

阅读（Reading）领域：
事件（Event）领域：
- ？
趋势（Trend）领域：
- 搜索引擎搜索词热榜
- Google Trends:Hot Trends（以天为单位）
- Twitter自己的Trending Topics侧边栏以及众多第三方的应用，如twopular
- 玩聚RT 和玩聚PP
头条（Headline）领域：
- popurls
- alltop

1、单一测量维度

郑昀认为，多数机器智能是以单一系统的内部数据做测量标准的。

我的文章《Social Media排序算法的四种模式》中提及 Digg 排序算法，拥有华丽无比的众多规则，但无论是投票的速度、投票用户的级别、评论和评分的数量、Bury的数量、用户的Popular Ratio等参数，都还是 Digg 系统内部的数据。

Tweetmeme 拥有高效的追踪Twitter世界热门链接的能力，但它的评价体系还是在围绕着 Twitter 的数据转，虽然体贴的链接分类（内容分类为科技、娱乐、游戏等；链接分类为News、图片和视频）是外部数据的计算结果。

Rssmeme 仅是依据 Google Reader Shared Items 的分享次数。stumbleupon 和 Delicious Popular Bookmarks 都是依据自身系统的收藏次数。

这些足够庞大的系统在互联网成熟期的国度，是完全可以反映 What’s popular 的。

但在中国，由于各个 Social Media 应用用户都不足够多，比如微博客，比如RSS阅读器。即使人数足够多，也只是往往趋同于某一特定气质人群。比如，猫扑的用户气质，天涯社区的用户气质，前校内网、开心网的用户气质，Twitter 中文用户的气质。

这就引发下面要说的问题：

2、国内数据少或偏不足以回答 What’s popular

先强调，还是有一些例外的，如百度贴吧的数据，如果好好挖掘一下，是可以充分反映中国的 Hot Trends、What’s popular 的。

但对于 Social Media 的数据，往往由于中国固有的问题，以至于用户不得不在多个网站（官方和非官方的都要找一两个）流连才能获取足够的资讯和读物，而北美用户基本可以只依赖 Digg 就够了，科技用户只看 Techmeme 就够了。

比如同样模仿 Rssmeme 或 Tweetmeme 做应用，显然数据有严重的偏好，不是科技（而且还只是某一部分科技资讯）就是政治（而且还倾向性强得要命），为广大人民所喜闻乐见的情色都很少。

3、加入其他测量维度交叉验证

（下面的延伸更偏重于 memeTracker 方向的 Readings Filter ，并不是通用的解决方案。）

为了弥补这一问题，就需要把不同 Social Media 的各种内部数据都当成是一个一个的测量维度，然后交叉验证。或者叫“基于mashup的数据挖掘模式”。

举一个非常简单的例子：

按照我写的《如何测量Google Reader用户的分享活跃度》遍历Google Reader 中文用户，计算他们的Rank值，从而得到来自于RSS阅读器的分享权重，将一少部分分享质量不高、Rank值低的用户摒弃掉后，得到一批可靠的阅读器用户（简称reader A-List）。

按照我写的《来，做一个社会化推荐引擎》遍历Twitter等微博客核心用户的Followers/Followings关系，计算中文微博客用户的Rank，并确立微博客中的一小部分用户为高质量的可靠用户（简称miniblog A-List）。

对 Twitter 进行扫描，获取中文用户都在分享什么链接，简称为 SRCBacks Links。

其他 Social Media 的数据也会算在推荐源内，但由于数据不多，所以不再阐述。

有了这些数据之后，希望 SR 首页（现被维护中）能反映中文世界的 What’s popular ，不管是值得阅读的Readings材料，还是突然暴起流行的笑料八卦，抑或时效性很强的Breaking News。

但由于阅读器的时效性有问题，微博客虽然够快但发链接太容易所以质量不高的链接泛滥，为了综合这些因素，可以如下交叉验证：

reader A-List 和 miniblog A-List 的推荐都算作相同权重的一票，并适当参考A-List用户自身的Rank。
票数足够多，就可以进入 SR 首页。
来自A-List的票数有但不足够多，此时如果 SRCBacks Links 的数据中有足够多的微博客链接，也可以推上首页。单独依靠 SRCBacks Links 容易遭致 spammer ，所以必须用A-List 来保证质量。

这样，这个信息过滤器既引入了微博客的实时性，又抑制了它的过度泛滥，还参考了Social Media用户在原体系中的活跃度、受欢迎程度等指标，能有效地摒弃质量不高的社会化媒体用户，算法不复杂，最终达到一个较好的过滤效果和效率。

郑昀 20090919 北京报道

推荐您阅读我的相关文章：

何测量Google Reader用户的分享活跃度 20090919

posted @ 2009-09-19 17:53 老兵笔记阅读(5357) 评论(0) 收藏举报

刷新页面返回顶部