- 核心特点:训练数据无标签(无
y值),算法需自主发现数据中的隐含结构(如聚类、分布规律等)。
- 典型应用场景:客户分群、异常检测、数据压缩等。聚类的非监督学习。无监督学习通过数据找到规律分组。
- 目标:将无标签数据自动划分成
K个聚类,使同一聚类内的数据相似度高,不同聚类间的相似度低。
- 核心步骤:
- 随机选择
K个初始聚类中心;
- 计算每个样本到各中心的距离,将样本归到最近的聚类;
- 重新计算每个聚类的均值(新的聚类中心);
- 重复步骤 2-3,直到聚类中心不再显著变化(收敛)。
- 关键细节:
- 代价函数:最小化样本与其所属聚类中心的距离总和;
K值选择:无固定规则,需结合业务场景(如肘部法则辅助判断,但非绝对)。
- 目标:数据降维,在保留关键信息的前提下,将高维数据映射到低维空间(减少特征数量)。
- 核心步骤:
- 对数据进行标准化(零均值化);
- 计算数据的协方差矩阵;
- 求解协方差矩阵的特征值和特征向量;
- 选取前
K个最大特征值对应的特征向量,构成投影矩阵;
- 通过投影矩阵将原始数据映射到低维空间。
- 注意事项:
- 用于数据压缩或加速模型训练,不能用于解决过拟合;
- 降维后的数据是原始特征的线性组合,失去原特征的可解释性。
- 目标:识别数据中偏离正常模式的异常样本(如欺诈交易、设备故障等)。
- 核心思路:
- 基于正常样本训练模型,学习正常数据的概率分布
p(x);
- 对新样本
x_test,若p(x_test) < ε(阈值),则判定为异常。
- 关键细节:
- 特征选择:优先使用近似高斯分布的特征,非高斯特征可通过对数变换等调整;
- 模型评估:因异常样本少,需用精确率、召回率、F1 分数等指标,结合验证集调整阈值
ε;
- 多元高斯分布:当特征间存在相关性时,比单变量高斯分布更准确(考虑特征间的协方差)。
posted @
2025-07-15 22:19
伟大的船长
阅读(
72)
评论()
收藏
举报