1.监督学习和无监督学习

下面用最通俗、最精炼的方式带你一次搞懂「监督学习」和「无监督学习」。


一、监督学习(Supervised Learning)

  1. 核心思想
    拿“带答案的题”做训练,让模型学会“看到新题就能给出答案”。

  2. 数据长什么样
    每条样本 = 特征 X + 标签 y(正确答案)。
    例子:
    • 房价预测:X = 面积、楼层、学区;y = 真实成交价。
    • 垃圾邮件识别:X = 邮件文本;y = 0 正常 / 1 垃圾。

  3. 典型任务
    • 回归:y 是连续值(房价、温度)。
    • 分类:y 是离散类别(猫/狗、良性/恶性)。

  4. 常用算法
    线性/逻辑回归、决策树、随机森林、SVM、神经网络、XGBoost……

  5. 训练流程
    喂数据 → 算误差 → 反向调参 → 误差最小化 → 部署模型。


二、无监督学习(Unsupervised Learning)

  1. 核心思想
    只有“题目”没有“答案”,让模型自己去找数据里隐藏的结构或规律。

  2. 数据长什么样
    只有特征 X,没有标签 y。

  3. 典型任务
    • 聚类:把相似样本自动分到同一组(用户分群、图像分割)。
    • 降维:把高维数据压缩成低维,方便可视化或加速后续训练(PCA、t-SNE)。
    • 异常检测:找出“跟大多数样本不一样”的点(信用卡欺诈、设备故障)。
    • 密度估计:估计数据分布,生成新样本(GAN、VAE)。

  4. 常用算法
    K-Means、DBSCAN、PCA、t-SNE、AutoEncoder、GMM、Isolation Forest……

三、一句话对比
监督学习:老师批改作业,学生学会答题;
无监督学习:没有老师,学生自己摸索数据里的“潜规则”。


四、延伸
• 半监督学习:有少量标签 + 大量无标签,降低标注成本。
• 自监督学习:把输入的一部分当“伪标签”,典型如 BERT、GPT。

posted @ 2025-08-30 11:12  数理生风  阅读(130)  评论(0)    收藏  举报