机器学习之K-均值算法

K-means（K-均值）聚类算法是一种无监督学习算法。它的主要目标是将一组未标记的数据点划分为𝐾个簇（cluster），使得每个数据点都属于离它最近的簇中心（centroid），并且每个簇内部的数据点尽可能相似，而簇与簇之间的数据点尽可能不相似。

欧几里得距离（Euclidean Distance），也称欧氏距离，是在多维空间中衡量两点之间直线距离的方法。它基于勾股定理，是我们在平面几何中最直观、最常用的距离概念的扩展。

注意与曼哈顿距离（Manhattan Distance, 差的绝对值之和）区别。

K-means 算法是一个迭代过程，它交替进行两个主要步骤：分配（Assignment）和更新（Update）。

初始化：
- 首先，需要预先确定聚类的数量𝐾
- 然后，随机选择𝐾个数据点作为初始的簇中心（也称质心）。
分配数据点（Expectation 步骤）：
- 计算每个数据点到所有𝐾个簇中心的距离（通常使用欧几里得距离）。
- 将每个数据点分配给距离它最近的簇中心所代表的簇。
更新簇中心（Maximization 步骤）：
- 重新计算每个簇的中心。新的簇中心是该簇中所有数据点的平均值（质心）。
重复迭代：
- 重复执行“分配数据点”和“更新簇中心”这两个步骤，直到满足以下任一停止条件：
  - 簇中心的位置不再发生显著变化。
  - 数据点不再重新分配到新的簇。
  - 达到预设的最大迭代次数。

优点

缺点

参考资料：

posted @ 2025-10-30 09:12 PKICA 阅读(12) 评论(0) 收藏举报

刷新页面返回顶部