k均值与K近邻算法
k均值算法:(kmeans聚类算法)
1,从输入样本随机选取k个样本中心点,
2,计算每一个样本距离k的中心点的距离,并且比较大小,取离中心点最近的点与中心点归为一类,
3,重新计算每个簇的质心,作为该簇的样本中心点,
4,如何再次计算每个样本距离中心点的距离,重复2,3。直至距样本中心的误差平方和最小即可。
k近邻算法:(KNN分类算法)。K 值的选择,距离度量(一般采用欧氏距离)和分类决策规则(少数服从多数)是该算法的三个基本要素
即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居),
这K个实例的多数属于某个类,就把该输入实例分类到这个类中.
特点:1.分类器不需要使用训练集进行训练,训练时间复杂度为0。
2.KNN 分类的计算复杂度和训练集中的文档数目成正比,也就是说,如果训练集中文档总数为 n,那么 KNN 的分类时间复杂度为O(n)。
3.由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。
浙公网安备 33010602011771号