辰云轩--井上冰的人文群落@CNBlogs 刚日读经,柔日读史,怒而写竹,喜而绘兰

常想一二,不思八九@Welkin Attic
®exhost一切关于人文的:政治/文学/哲学/历史/艺术/音乐/人类/阅读/管理...软件工程/操作系统/嵌入式...语言原教旨主义...以及加菲猫

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::
  835 随笔 :: 18 文章 :: 1588 评论 :: 1 引用
分类法过时了吗?

引用网址: http://www.qiji.cn/baike/contents/122.html
更新日期: 2005年6月09 周四 Posted By ianwest 更多
标签: YAHOO Sina Google
页面工具: [前一项] [后一项] { 发表评论 }

 

计算机和互联网的出现意味着新阅读时代的来临,如何组织使用数字格式的信息成为巨大的挑战。在传统的阅读时代,我们可以去图书馆按照图书分类法,查找我们所需要的图书,就在10几年前,我们上大学的第一课仍然是如何使用图书馆,如何在一大厅的卡片里迅速地找到自己需要的知识。图书分类法很多,有所谓中图法、杜威法等等,如果我们再往前追溯,我们会发现,对事物进行分类,是我们对其进行研究的第一部,我们为什么说林耐是现代生物学的奠基人,就是因为他建立了近代的生物分类系统。

在网络时代,人们首先对信息的组织也是尝试建立这样一个分类系统,YAHOO可以称的上是这方面的典范,1997年的YAHOO首页(Link)清楚地给我们展现了它的分类体系。据说这个分类体系是在图书馆学专家的参与下完成的,但网络信息与图书馆信息不同的是其对象无所不包,凡是人们关心的,都可能会以网页或网站的形式出现。随着时间的发展,网络上的知识呈爆炸式的增长,YAHOO借助人工的方法显然是无法为亿万互联网用户创造的信息进行分类的。因此如果YAHOO仍然希望他们的分类法可以组织所有网络信息的话,那只是原则上可行,而事实上是不可能完成的。所以YAHOO开始进行频道化的发展策略是很自然的事情,既然无法为所有信息,那就“专注于”人们需求最多的那部分信息,体育、新闻、拍卖等就成为了“频道化”的内容。当然按“频道”组织信息,并且每日更新的典范是SINA(新浪网),从最初的几个频道发展到目前的几十个甚至更多的频道和专题。

但对于“组织人类有史以来所有知识”这个巨大挑战面前,不存在所谓“二、八法则”,即我们无法仅建设有限个频道,就可覆盖人们所需信息的有限大部分。所以我们可以看到虽然新浪建设的频道越来越多,但无论投入多大,终归只能是有限个频道,仍然无法匹敌亿万互联网用户几乎无穷的信息(知识)需求。

这个叙述,可以用统计语言学中的Zipf法则进行说明,按Zipf法则,语言中最常用单词的词频$f$与其排序$r$成反比:$f = \frac{C}{r}$。

如果我们把$f$看作人们对特定信息需求的频率,$r$看作人们各种需求的排序。对$f$的求和,对应就是人们对各种信息的总需求,当$r \to \infty $,这个求和是发散的,即如果我们只求和最大频率的前$N$项,将永远是个有限大数,和总信息需求相比只能是无穷小。

在这种背景下,Google诞生了,当然类似于Google的搜索技术在上世纪90年代中期就已出现,只不过Google更成功罢了。Google的做法是用计算机程序去索引“所有”网页信息,但并不去“组织”这些信息,“组织”工作是由用户使用的时候与Google互动地完成的,即“关键字”查询。在这种模型下,Google不需要作任何频道,也不需要预先分类,这些工作都是由用户自己完成的,Google只需要保证“索引库”尽量完全,排序法则尽量合理。

从2000年之后,Google的成长是非常迅速的,其中一个原因就是Google满足了人们对“无穷”种类信息的需求,我们可以看一下Google与Sina最近两年浏览量变化的趋势,可以更为直观地体会到这种变化。

如果我们进一步考察,目前最新的互联网应用的话,它们或多或少都具有类似Google搜索的特征,即由用户借助网络工具自主地组织内容,进行分类,如WIKI百科,标签(TAG)等。

那么分类法过时了吗?其实对信息分类是我们合理利用信息必不可少的一步,从这个角度分类法永远不会过时。但金字塔式的分类法再也不是信息分类的唯一选择,而只是方法之一。基于“小世界模型”、“无标度模型”等的新分类法可能更适合于网络时代的信息分类。

posted on 2005-07-16 01:53  井上冰  阅读(...)  评论(... 编辑 收藏