随笔分类 -  信息检索 Information Retrieval

摘要:作者:daniel-D 出处:http://www.cnblogs.com/daniel-D/在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。... 阅读全文
posted @ 2015-02-07 22:18 DownUp 阅读(263) 评论(0) 推荐(0)
摘要:在做很多研究问题时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1. 欧氏... 阅读全文
posted @ 2013-04-26 18:40 DownUp 阅读(426) 评论(0) 推荐(0)
摘要:好吧,其实我也不是IR专家,但是我喜欢IR,最近几年国内这方面研究的人挺多的,google和百度的强势,也说明了这个方向的价值。当然,如果你是学IR的,不用看我写的这些基础的东西咯。如果你是初学者或者是其他学科的,正想了解这些科普性质的知识,那么我这段时间要写的这个“信息检索X科普”系列也许可以帮... 阅读全文
posted @ 2011-09-02 11:28 DownUp 阅读(220) 评论(0) 推荐(0)