人工智能概述之05机器学习算法分类

算法分类

根据数据集组成不同,可以把机器学习算法分为:

  1. 监督学习(Supervised Learning):

    • 定义: 算法从标记好的训练数据中学习,其中每个训练样本都包含输入和相应的输出标签。
    • 应用: 用于分类和回归问题,例如图像分类、语音识别、房价预测等。
    • 示例:
      • 分类问题:手写数字识别,垃圾邮件分类。
      • 回归问题:房价预测,销售预测。
    • 最佳实践:
      • 确保训练集和测试集的标签都是正确的。
      • 选择适当的性能指标,如准确性、精确度、召回率等。
  2. 无监督学习(Unsupervised Learning):

    • 定义: 算法从未标记的数据中学习,没有明确的输出标签。其目标通常是发现数据的结构或模式。
    • 应用: 用于聚类、降维、关联规则挖掘等,例如聚类相似文档、降低数据维度、发现关联规律等。
    • 示例:
      • 聚类:客户分群,新闻主题聚类。
      • 降维:图像压缩,特征提取。
    • 最佳实践:
      • 选择合适的聚类算法或降维技术。
      • 调查和理解无监督学习模型输出的结果
  3. 半监督学习(Semi-supervised Learning):

    • 定义: 这是监督学习和无监督学习的结合,其中模型使用标记和未标记的数据进行训练。
    • 应用: 适用于标记数据不充分的情况,通过结合未标记数据来提高模型性能。
    • 示例:
      • 文本分类,其中只有一小部分文档进行了标记
    • 最佳实践:
      • 确保未标记数据的质量。
      • 使用标记数据来引导模型的学习。
  4. 强化学习(Reinforcement Learning):

    • 定义: 算法通过与环境的交互学习,根据其行动的反馈获得奖励或惩罚。
    • 应用: 用于决策问题,例如游戏玩家的训练、机器人控制等。
    • 最佳实践:
      • 设定适当的奖励和惩罚机制。
      • 平衡探索(exploration)和利用(exploitation)的权衡。
    • 示例:
      • 游戏玩家(例如AlphaGo)。
      • 机器人控制,自动驾驶车辆
  5. 自监督学习(Self-supervised Learning):

    • 定义: 模型从输入数据中学习,而不需要显式的标签。通常,模型通过自己生成标签或任务来学习。
    • 应用: 用于图像、文本等领域,例如图像生成、文本补全等。

这些类型并不是孤立的,有时候算法可以同时使用多种学习方式。例如,半监督学习可以结合监督和无监督学习,提高模型的泛化能力

监督学习:

  • 输入数据是由输入特征值和目标值所组成。
    • 函数的输出可以是一个连续的值(称为回归),
    • 或是输出是有限个离散值(称作分类)。

 

 无监督学习

  • 输入数据是由输入特征值组成,没有目标值

    • 输入数据没有被标记,也没有确定的结果。样本数据类别未知;
    • 需要根据样本间的相似性对样本集进行类别划分

 

半监督学习

  • 训练集同时包含有标记样本数据和未标记样本数据。

 

强化学习

  • 实质是make decisions 问题,即自动进行决策,并且可以做连续决策。

监督学习和强化学习的对比:

 什么是独立同分布:https://blog.csdn.net/weixin_48135624/article/details/114907388

 

常见的算法简介

  1. 线性回归(Linear Regression):

    • 描述: 用于建立输入特征与输出目标之间的线性关系。
    • 示例: 预测房价,基于房屋面积、卧室数量等特征。
  2. 逻辑回归(Logistic Regression):

    • 描述: 用于处理二分类问题,通过 S 形曲线将输入映射到 0 到 1 之间的概率。
    • 示例: 预测邮件是垃圾邮件(1)还是非垃圾邮件(0)。
  3. 决策树(Decision Trees):

    • 描述: 基于特征的条件进行决策,树形结构。
    • 示例: 根据天气条件(阳光、多云、雨)预测是否会下雨。
  4. 支持向量机(Support Vector Machines,SVM):

    • 描述: 用于分类和回归任务,通过找到将数据划分为两个类别的最优超平面。
    • 示例: 图像分类,将图像分为不同的类别。
  5. 聚类算法 - K均值聚类(K-Means Clustering):

    • 描述: 将数据集分为 k 个簇,使得每个数据点属于离其最近的簇。
    • 示例: 客户分群,根据购买行为将客户分为不同的群体。
  6. 朴素贝叶斯(Naive Bayes):

    • 描述: 基于贝叶斯定理,处理分类问题,特征之间假设独立。
    • 示例: 垃圾邮件过滤,根据词汇判断邮件是否为垃圾邮件。
  7. 神经网络(Neural Networks):

    • 描述: 模拟人脑神经元的网络结构,通过层次化学习来建立模型。
    • 示例: 图像识别,语音识别,自然语言处理等。
  8. 随机森林(Random Forest):

    • 描述: 由多个决策树组成的集成学习模型,通过投票来进行预测。
    • 示例: 随机森林可以用于预测疾病风险,根据多个决策树的结果进行综合评估。
posted @ 2023-11-22 00:03  Allen_Hao  阅读(448)  评论(0)    收藏  举报