02 2013 档案

摘要:微格式自诞生之日起,就是为语义网(1998年由Tim Berners Lee提出)服务的。“语义网的核心,是通过给万维网上的文档 (如: HTML)添加能够被计算机所理解的语义(Meta data),从而使整个互联网成为一个通用的信息交换媒介。” 李氏之所以提出语义网,是因为他察觉到了Web数据是半结构化而且异构的。正是Web数据如此杂乱无章,才使搜索引擎多年停留在关键字搜索的阶段。而关键字所搜的问题在于,关键字往往一词多义,比如java和kayak这两个词,导致搜索结果无法很好地匹配用户的需要。简言之,关键字搜索的查全率(recall)很高,但同时冗余度也很高(即精度(precisio... 阅读全文
posted @ 2013-02-23 12:17 iliveido 阅读(252) 评论(0) 推荐(0)
摘要:夜里闲暇,刚翻开Soumen(三哥的名字)的“Mining the Web: Discovering Knowledge from Hypertext Data",未来得及看目录,只见内页写着一句 This book is printed on acid-free paper,霎时仿佛死理性派上身,非要去问度娘什么是无酸纸(够蛋疼。。。)。 度娘百科这次倒是让哥虎躯一震,刮目相看。acid-free paper的优点有造价低廉、不伤眼、制造过程对环境污染小等等,而最重要的优点便是利于书籍保存。酸性纸(例如报纸)即使保存妥当,最多也只存20年,而且还发黄发臭(君不见,学校图书馆二楼的陈 阅读全文
posted @ 2013-02-20 22:02 iliveido 阅读(1415) 评论(0) 推荐(0)