大中华之事件监测

郑昀@Big Event 20100117

什么是事件监测？

简单地说，就是网络中正在讨论的热门事件，比如各种“门”，被机器智能实时捕获。

它的最好情况是，当事件刚刚被一些新闻敏感的人群讨论时，当还没有进入公众视线时，还处于蛰伏期，就已经被事件监测引擎捕获。

事件监测应该反映出什么？

它应该可以告诉你：

都有哪些消息在讨论这个事件，最好是实时聚合的；

哪些人在事件中出现，或被人多次提及；

人们提及这些人时，都是喜欢、愤怒、沮丧还是不屑，表露出什么样的情感趋势；

谈论此事件时，流传最广、最受欢迎的评论都有哪些，你可以更有效地找到精彩评论或文章；

有关联图片和视频聚合更好；

能让你快速地了解事件的背景；

你可以通过RSS或微博等推送手段订阅这个事件的进展；

你可以加入这个事件Group讨论，让你的消息也显示在对应的Group中；

。。。

玩聚HOT——Big Event

实际上玩聚HOT这个事件监测引擎早在09年6月就基本写好了，当框架大致定下来时，一个重要数据来源饭否——牺牲了，另一个数据校验来源FriendFeed也基本不可用了，于是停滞了下来。

直到新浪微博的鹊起，这个引擎才又有了可操作的余地。

正如Big Event的中文口号“即将引爆网络的大事件”所言，引擎就是要追逐那些大事件，那么显然微博客是最好的数据来源。由于事件监测需要覆盖全网热点，所以单凭Twitter中文社群无法承载这个校验目的。新浪微博的广泛用户群，相对更多样的话题性，让事件自动监测成为可能。

思路

引擎如何找到一个事件，如何让事件能够自描述，标题如何确定？

一种常见思路是广泛收集最近N小时内发布的微博、帖子和博客文章，从中分析词频较高的词组，这些词就是热榜，能反映一定趋势，正如Twitter的Trends所示。

这种思路的优点是能快速、实时地计算，缺点是机器切分的一个一个零散的中文单词不能自描述，人们看到之后难以理解到底是什么意思指代什么事物，即使是英文词组甚至Twitter HashTag，也存在这个问题。

另一种思路是直接把最近N小时内发布的微博、帖子和博客文章聚类，综合运用层次聚类、特征向量空间等算法，让文章自动分组为一个一个的热点，每一个都可能对应一个事件。

这个思路我们最开始玩过，还不错。我们管它叫“热点自动发现”算法。

它的优点是覆盖面广，大大小小的热点基本都能触碰到，配合分类算法，可以输出很多频道的热点。缺点嘛，一是计算量太大，计算周期长；二是不容易确定一个聚类是不是对应真实的社会事件；三，文章质量无法评估，难以做到精彩文章优先推荐；最后，作为新生事物的微博，由于文本过短，根本无法与帖子和博文进行相似性计算。

我们这次选择的是类似SEOer的思路。他们观察搜索引擎热榜，从上升最快的关键词榜单上寻找他们需要制作的网页主题。这样，制作的网页内容越丰富，关键词堆积越多，越早发布，就可以保证在搜索结果中占据一个好位置。

这一连串的人的动作是可以被机器智能模拟逼近的。

交叉验证哲学

SEOer的思路，加上我以前不断谈的交叉验证模式，就是事件监测引擎的雏形。

这里还有一个问题，人们搜索一个事件往往用到很多种关键词，比如你点击谷歌退出中国事件的页面，看左侧的关联热词：

谷歌解散
谷歌中国正式解散
谷歌退出中国原因
谷歌关闭
谷歌退出
谷歌中国解散
谷歌退出中国市场
谷歌退出中国
谷歌中国关闭

这么多热词怎么才能合并到一个事件身上呢？你可能会说这些热词中都有“谷歌”啊。那好，我们再看一个例子：

清华作业门
清华c语言门
c语言门女生

光靠热词本身是不可能做到完美合并的。

这就要用到我常谈的《语义与特征》的哲学了,:D。

情感趋势计算

我曾经在《情感分析方向近况·0908》讲述了国外Sentiment Analysis的进展。在事件监测里，也能自动提炼事件中人们谈论最多的人名，并计算提到这些名字时的情感趋势，以及提到他们时都常用哪些情感词。比如，你可以点击孙云丰谈谷歌事件，查看左侧栏人们是如何看待孙云丰的。

如何确定哪些消息更精彩更重要？

就像锐推榜的哲学一样，相似消息的重复次数越多，它的重要性越高，这就用到了信息指纹的概念。评论数、转发数当然也是一个参考因素。为了让旧资讯快速离开用户的视线，还要再加上发布时间的新鲜因素。

这样，由于每个事件中，关联资讯是按照重要性（混合了时间因素）排序的，用户可以看到最有趣最受欢迎的新鲜资讯在最前面。更多思路请参考我写的《Social Media排序算法的四种模式》。

大致的框架就是这样。玩聚HOT还在内测中（所以暂不提供RSS和微博帐号），不排除打散逻辑重新组合，但基本哲学应该就是这些了。

zhengyun 北京报道

posted @ 2010-01-18 03:36 老兵笔记阅读(3508) 评论(0) 收藏举报

刷新页面返回顶部