2009年9月7日

向量空间模型(VSM)

摘要: 向量空间模型将文档映射为一个特征向量V(d)=(t1,ω1(d);…;tn, ωn(d)),其中ti(i=1,2, …,n)为一列互不雷同的词条项,ωi(d)为ti在d中的权值, 一般被定义为ti在d中出现频率tfi(d)的函数,即 。 在信息检索中常用的词条权值计算方法为 TF-IDF 函数,其中N为所有文档的数目,ni为含有词条ti的文档数... 阅读全文

posted @ 2009-09-07 16:32 蜗牛与老鹰 阅读(3497) 评论(0) 推荐(2)

信息检索及信息过滤方法概述

摘要: 文章来自: http://www.dmresearch.net/Information-Retrieval/200412/1851.html本文总结了信息检索(IR)的主要技术,主要内容分成两部分:第一部分,对传统IR方法(全文本扫描(full text scanning)、倒排文件(inversion)、签名文件(signature file)及聚类(clustering))的回顾;第二部分,介... 阅读全文

posted @ 2009-09-07 16:30 蜗牛与老鹰 阅读(1720) 评论(2) 推荐(1)

来自维基百科 -文本信息检索

摘要: 文本信息检索是针对文本的信息检索技术。在技术社区中,文本信息检索常常被等同于信息检索技术本身。相对视频、音频检索而言,文本信息检索是发展较快也较成熟的,其他模态的信息检索技术,往往也要仰赖文本信息检索的支持。虽然网络搜索引擎目前已不仅仅局限于对文本进行检索,文本信息检索仍然是大部分网络搜索引擎的基础。历史介绍 自人类的文字产生起,如何快速地从大量的,记录在各种各样的存储媒体中的信息就成为一个引人注... 阅读全文

posted @ 2009-09-07 16:28 蜗牛与老鹰 阅读(739) 评论(0) 推荐(0)

导航