吴恩达机器学习——非监督学习

一、非监督学习基础

  • 核心特点:训练数据无标签(无y值),算法需自主发现数据中的隐含结构(如聚类、分布规律等)。
  • 典型应用场景:客户分群、异常检测、数据压缩等。聚类的非监督学习。无监督学习通过数据找到规律分组。

二、K-Means 聚类算法

  • 目标:将无标签数据自动划分成K个聚类,使同一聚类内的数据相似度高,不同聚类间的相似度低。
  • 核心步骤:
    1. 随机选择K个初始聚类中心;
    2. 计算每个样本到各中心的距离,将样本归到最近的聚类;
    3. 重新计算每个聚类的均值(新的聚类中心);
    4. 重复步骤 2-3,直到聚类中心不再显著变化(收敛)。
  • 关键细节:
    • 代价函数:最小化样本与其所属聚类中心的距离总和;
    • K值选择:无固定规则,需结合业务场景(如肘部法则辅助判断,但非绝对)。

三、主成分分析(PCA)

  • 目标:数据降维,在保留关键信息的前提下,将高维数据映射到低维空间(减少特征数量)。
  • 核心步骤:
    1. 对数据进行标准化(零均值化);
    2. 计算数据的协方差矩阵;
    3. 求解协方差矩阵的特征值和特征向量;
    4. 选取前K个最大特征值对应的特征向量,构成投影矩阵;
    5. 通过投影矩阵将原始数据映射到低维空间。
  • 注意事项:
    • 用于数据压缩或加速模型训练,不能用于解决过拟合;
    • 降维后的数据是原始特征的线性组合,失去原特征的可解释性。

四、异常检测

  • 目标:识别数据中偏离正常模式的异常样本(如欺诈交易、设备故障等)。
  • 核心思路:
    1. 基于正常样本训练模型,学习正常数据的概率分布p(x)
    2. 对新样本x_test,若p(x_test) < ε(阈值),则判定为异常。
  • 关键细节:
    • 特征选择:优先使用近似高斯分布的特征,非高斯特征可通过对数变换等调整;
    • 模型评估:因异常样本少,需用精确率、召回率、F1 分数等指标,结合验证集调整阈值ε
    • 多元高斯分布:当特征间存在相关性时,比单变量高斯分布更准确(考虑特征间的协方差)。
posted @ 2025-07-15 22:19  伟大的船长  阅读(72)  评论(0)    收藏  举报