机器学习问题一览

机器学习问题一览

标签(空格分隔): 机器学习 ML Machine Learning


按数据类别分类

二分类问题

数据的类别只有两种,形式上可以转化成0/1或者是否问题

典型的二分类问题有:

  • 垃圾邮件判别
  • 疾病判断
  • 判断答案正误
  • 决定是否投放广告
  • ...

多分类问题

数据的类别可能有有限多种

典型的多分类问题有:

  • 手写数字识别
  • 图片分类
  • 邮件类型识别(新版gmail)

回归问题

回归问题指数据的取值可能是连续的或者有无数个可能值,比如气温,价格,时间

典型的回归问题有:

  • 预测病人出院时间
  • 预测股票走势
  • 预测天气和气温

回归问题在机器学习出现之前就被大量研究,是传统统计学的一个重要的研究方向,所以当前的机器学习经常借鉴统计学的回归分析方式方法和工具。

结构化学习

按数据标注分类

监督式学习

  • 有标注集
  • 数据类别已知

我们到现在遇见的问题都是监督式学习问题。

非监督式学习

  • 无标注数据
  • 数据类别可能不可知

数据类别不可知的非监督学习问题也称聚类问题

典型的非监督式学习问题有:

  • 密度估计
    • 通过不同地点事故记录密度寻找危险地点
  • 离群点检测
    • 识别出网络流量中的异常流量以识别出坏机器或者攻击行为

半监督式学习

仅标注少数的有特性的数据,配合多数无标注数据进行学习,常用于标注数据集的成本较大而且数据集很大的情况。

半监督式学习通常要靠大量的未标注数据来提升算法的性能。

增强学习 Reinforce learning

对于数据的预测和分析,对预测正确的case进行奖励,对预测错误的case进行惩罚,算法在预测中成长的一类问题

常见的增强学习问题有:

  • 根据输入客户预测广告投放,根据用户的点击行为对广告投放进行调整

按数据规模分类

Batch learning

每次将一批数据放入感知机,对感知机进行训练,其目标函数g随着数据的成批填入变动

在线学习 Online learning

每当新的数据进入,就自动放入感知机训练,其目标函数随着数据变化一直在变动,类似流式处理,目标函数是不断改进的

eg. spam mail filter,垃圾邮件分类

通常增强学习用在Online learning中。

按算法特性分类

主动学习 Active learning

算法甄选出特征后,主动构造数据-分类,主动寻求反馈,根据反馈调整特征和参数,进而改进感知机/分类器性能。
通常主动学习用于data labeling 代价高昂以至于不能拥有很多标注数据的情况中。

posted @ 2015-09-28 21:28  _menc  阅读(198)  评论(0)    收藏  举报