随笔分类 - Machine Learning

MLlearning（2）——simHash算法

摘要：这篇文章主要讲simHash算法。这是一种LSH（Locality-Sensitive Hashing，局部敏感哈希）的简单实现。它是广泛用于数据去重的算法，可以用于相似网站、图片的检索。而且当两个样本差别并不大时，算法仍能起效。值得一提的是，该算法的时空复杂度不存在与维度有关的项，所以不会遭遇维度阅读全文

posted @ 2016-02-17 19:53 Darksun2010 阅读(1770) 评论(0) 推荐(0)

MLlearning（1）——kNN算法

摘要：这篇文章讲kNN（k近邻，k-Nearest Neighbour）。这是一种lazy-learning，实现方便，很常用的分类方法。约定n为样本集中的样本数，m为样本的维度，则这个算法的训练复杂度为0，未加优化（线性扫描）的分类时间复杂度为，kd-Tree优化后复杂度可降为。思路、优点及缺陷该方阅读全文

posted @ 2016-01-29 20:00 Darksun2010 阅读(1185) 评论(0) 推荐(1)

Darksun2010

随笔分类 - Machine Learning

公告