浅谈有道热闻的机器智能

20080920 郑昀@玩聚SD(科技体育娱乐):


    网易有道继续在搜索领域的探索。我当然最关心他的有道热闻

1、共同的问题

    和有道的推广人员聊,我反映的也是大家做研发最经常遇到的问题。由于新闻聚合的根本涉及自然语言处理的文本相似性计算,所以各种新闻聚合产品也都是一个毛病(跟我们最开始的玩聚热点一样):
    只有娱乐、互联网、科技、财经的新闻+博客聚合效果最好。至于频道,国内和社会,太多敏感东西,网易有道显然不敢碰(我们也不敢碰了,我倒要看看谁敢碰)。其他的频道,女性、旅游、汽车、军事等等,由于并非事件驱动,所以也就乏善可陈了。比较典型的就是中秋节日引发的新闻和博客热点,实际上很难有阅读价值。这是一个难以解决的问题。也就是各个频道的热点分布不均匀的问题。这个在人工编辑们看来不是问题,但对机器智能就存在问题。



2、中国何以如此,美国又何以做到?
    语义相关性计算,要求事件驱动,就是需要有一个事儿引发新闻或博客写作,否则容易泛泛地关联,内容实际上没有关联,仅仅是某几个关键词频率频出现多罢了。事件驱动的,譬如最近的“三鹿奶粉事件”“WordCampChina2008”“鲁能胜国安”。简单关联的,譬如“盘点”。这就是中国特色的特殊性,因为缺乏反向链接辅助信息以及其他Social参数,无从关联,没有计算依据。

    而反观techmeme,2005年9月建立的,它的创始人Gabe Rivera只要建立好A-List,掌控好信息源;然后建立一套算法确定谁会成为核心源;接下来跑就是了。主要是美国大环境好,博客写作速度很快很及时,而且质量很好。

    techmeme的核心源算法比较牛。简单地说,就是一大堆讨论某一件事情的文章,究竟该确立谁为核心文档。至于反向链接分析嘛,人人都会。语义相关,也几乎对于高手不成问题。

    并非总是第一个写这个热点的博客是核心文档的。因为这套算法保证了整个热点吸引人,所以核心文档很重要,起着画龙点睛作用。也并不是权重最高、引用最多的人的文章总是核心文档。因为Gabe曾经说过:“

    “跟风”是一个客观存在的问题。尽管techmeme提供了大量的主题,用户仍然更愿意参加一些热门话题的讨论,发表自己的反对或补充意见。与此同时,很多普通话题无人问津,或者彻底被湮没。尽管我希望看到不知名作者的文章出现,但它并不是techmeme的目标。我希望techmeme能让读者感到有趣,同时也为不知名作者提供展示自己的舞台,但无论如何,techmeme并不能让所有不知名作者满意。”

    Gabe承认以下说法:“Reddit和Slashdot采用“专家/权威/声望”系统来查找文章并确定排序,Digg则依托用户社区来查找链接最多和讨论最多的文章,这是两种完全不同的方法。种种迹象表明,techmeme同时采用了这两种方法,因为我在techmeme上既看到了没有链接或评论的专家文章,同时也看到了拥有多个链接,但知名度很低的博客文章。techmeme完全独立地采用了这两种算法。”

    所以,我认为techmeme的反向链接计算和语义相关计算可能人人都会,但磨合出这么一个热点会话算法,而且一上手就发挥巨大威力,这个很牛,也是拜美国长期高质量高频率的博客写作水平所赐。你就算有一个好想法,有一个好算法,也得有好土壤做测试才行啊。



3、机器智能与用户数据分析

    这是一个老话题了。我跟很多人都讨论过这个问题。

    100%的机器智能肯定存在问题。毕竟新闻搜索聚合,要保证可阅读性,价值阅读,扩展阅读。光靠机器,我觉得不行。娱乐、科技、互联网、财经,这些都可以全程机器自动。但其他的缺乏事件驱动的频道,只能略微人工调整。

    话说回来,点击率和评论数,确实是一种social参数。但技术难度在于,这些参数在大型BSP那里多半是ajax的,必须针对性抓取,才能得到,而且必须不断地循环抓取,才能监控准确。所以,social参数虽然可以作为参考,但实现起来并不容易。尤其是存在门户之见流量差异问题,techweb上一篇上千点击量的博文可能价值远远高于新浪博客上一篇点击数十万的文章。完全靠digg也不行。social参数+digg+文本相似性+反向链接计算,合起来,可能是一条路,但这条路,很麻烦,需要人,很多时间,很多人工。

    与有道热闻的工程师聊,他对纯粹机器的语义分析也是比较悲观的,这个也是搞语义的若干人等都认同的,要不然周鸿祎也不会完全放弃奇虎聚合之路。当然奇虎当年探索的机器智能之路并不只限于语义计算这么一条窄路,但结果是机器智能无法抵抗人工编辑,更不用说取代了。

    有道工程师对有各种各样用户数据的机器分析倒是比较乐观,有用户,就有质量的保证,反之,又会吸引新的用户,这是一个正反馈。这个确实只适合大门户大平台搞。



4、小结:

    语义,只是一种古老的工具,Social(digg、newsfeed、shared、bookmarks、comments),也是一种工具。两种工具如何结合,就看有道工程师们的智慧了。

 

20080920 郑昀@玩聚SD(科技体育娱乐):

posted @ 2008-09-21 17:18  旁观者  阅读(4274)  评论(2编辑  收藏  举报