摘要:信息检索(informagto retrieval) 是从大规模非结构化数据(通常是文本)的集合中找出满足用户信息需求的资料 文档document 所有文档组成“文档集“(collection), 有时也称“语料库”(corpus) 查询(query) 相关的(relevant) 正确率(precision): 返回结果中 真正和信息需求相关的文档所占比例 //给出的结果,多少是真正需... 阅读全文
posted @ 2014-09-15 20:00 joey周琦 阅读 (208) 评论 (0) 编辑
摘要:2.1.1 文档分析及编码转换: 文档处理第一步,是将文件或web服务器上的一系列二进制字节序列转换为字符序列。 在实际中,首先要判断出文档的编码方式(机器学习分类、启发式等方法),确定文档的类型(word?zip?)然后将字节序列转换成字符序列。 2.1.2 文档单位(document unit)的选择: 常见的,将某个目录下的每个文件都看成一个文档。 ... 阅读全文
posted @ 2014-09-15 19:57 joey周琦 阅读 (867) 评论 (0) 编辑