机器学习问题一览
机器学习问题一览
标签(空格分隔): 机器学习 ML Machine Learning
目录
按数据类别分类
二分类问题
数据的类别只有两种,形式上可以转化成0/1或者是否问题
典型的二分类问题有:
- 垃圾邮件判别
- 疾病判断
- 判断答案正误
- 决定是否投放广告
- ...
多分类问题
数据的类别可能有有限多种
典型的多分类问题有:
- 手写数字识别
- 图片分类
- 邮件类型识别(新版gmail)
回归问题
回归问题指数据的取值可能是连续的或者有无数个可能值,比如气温,价格,时间
典型的回归问题有:
- 预测病人出院时间
- 预测股票走势
- 预测天气和气温
回归问题在机器学习出现之前就被大量研究,是传统统计学的一个重要的研究方向,所以当前的机器学习经常借鉴统计学的回归分析方式方法和工具。
结构化学习
按数据标注分类
监督式学习
- 有标注集
- 数据类别已知
我们到现在遇见的问题都是监督式学习问题。
非监督式学习
- 无标注数据
- 数据类别可能不可知
数据类别不可知的非监督学习问题也称聚类问题
典型的非监督式学习问题有:
- 密度估计
- 通过不同地点事故记录密度寻找危险地点
- 离群点检测
- 识别出网络流量中的异常流量以识别出坏机器或者攻击行为
半监督式学习
仅标注少数的有特性的数据,配合多数无标注数据进行学习,常用于标注数据集的成本较大而且数据集很大的情况。
半监督式学习通常要靠大量的未标注数据来提升算法的性能。
增强学习 Reinforce learning
对于数据的预测和分析,对预测正确的case进行奖励,对预测错误的case进行惩罚,算法在预测中成长的一类问题
常见的增强学习问题有:
- 根据输入客户预测广告投放,根据用户的点击行为对广告投放进行调整
按数据规模分类
Batch learning
每次将一批数据放入感知机,对感知机进行训练,其目标函数g随着数据的成批填入变动
在线学习 Online learning
每当新的数据进入,就自动放入感知机训练,其目标函数随着数据变化一直在变动,类似流式处理,目标函数是不断改进的
eg. spam mail filter,垃圾邮件分类
通常增强学习用在Online learning中。
按算法特性分类
主动学习 Active learning
算法甄选出特征后,主动构造数据-分类,主动寻求反馈,根据反馈调整特征和参数,进而改进感知机/分类器性能。
通常主动学习用于data labeling 代价高昂以至于不能拥有很多标注数据的情况中。

浙公网安备 33010602011771号