随笔分类 -  Machine Learning

摘要:这篇文章主要讲simHash算法。这是一种LSH(Locality-Sensitive Hashing,局部敏感哈希)的简单实现。它是广泛用于数据去重的算法,可以用于相似网站、图片的检索。而且当两个样本差别并不大时,算法仍能起效。值得一提的是,该算法的时空复杂度不存在与维度有关的项,所以不会遭遇维度 阅读全文
posted @ 2016-02-17 19:53 Darksun2010 阅读(1741) 评论(0) 推荐(0)
摘要:这篇文章讲kNN(k近邻,k-Nearest Neighbour)。这是一种lazy-learning,实现方便,很常用的分类方法。约定n为样本集中的样本数,m为样本的维度,则这个算法的训练复杂度为0,未加优化(线性扫描)的分类时间复杂度为,kd-Tree优化后复杂度可降为。 思路、优点及缺陷 该方 阅读全文
posted @ 2016-01-29 20:00 Darksun2010 阅读(1148) 评论(0) 推荐(1)