吴恩达机器学习——非监督学习

一、非监督学习基础

核心特点：训练数据无标签（无y值），算法需自主发现数据中的隐含结构（如聚类、分布规律等）。
典型应用场景：客户分群、异常检测、数据压缩等。聚类的非监督学习。无监督学习通过数据找到规律分组。

二、K-Means 聚类算法

目标：将无标签数据自动划分成K个聚类，使同一聚类内的数据相似度高，不同聚类间的相似度低。
核心步骤：
1. 随机选择K个初始聚类中心；
2. 计算每个样本到各中心的距离，将样本归到最近的聚类；
3. 重新计算每个聚类的均值（新的聚类中心）；
4. 重复步骤 2-3，直到聚类中心不再显著变化（收敛）。
关键细节：
- 代价函数：最小化样本与其所属聚类中心的距离总和；
- K值选择：无固定规则，需结合业务场景（如肘部法则辅助判断，但非绝对）。

三、主成分分析（PCA）

目标：数据降维，在保留关键信息的前提下，将高维数据映射到低维空间（减少特征数量）。
核心步骤：
1. 对数据进行标准化（零均值化）；
2. 计算数据的协方差矩阵；
3. 求解协方差矩阵的特征值和特征向量；
4. 选取前K个最大特征值对应的特征向量，构成投影矩阵；
5. 通过投影矩阵将原始数据映射到低维空间。
注意事项：
- 用于数据压缩或加速模型训练，不能用于解决过拟合；
- 降维后的数据是原始特征的线性组合，失去原特征的可解释性。

四、异常检测

目标：识别数据中偏离正常模式的异常样本（如欺诈交易、设备故障等）。
核心思路：
1. 基于正常样本训练模型，学习正常数据的概率分布p(x)；
2. 对新样本x_test，若p(x_test) < ε（阈值），则判定为异常。
关键细节：
- 特征选择：优先使用近似高斯分布的特征，非高斯特征可通过对数变换等调整；
- 模型评估：因异常样本少，需用精确率、召回率、F1 分数等指标，结合验证集调整阈值ε；
- 多元高斯分布：当特征间存在相关性时，比单变量高斯分布更准确（考虑特征间的协方差）。

posted @ 2025-07-15 22:19 伟大的船长阅读(72) 评论(0) 收藏举报

刷新页面返回顶部