第三讲 Types of Learning
Learning with Different Output Space
binary classification: y={-1, +1},二元分类问题,如垃圾邮件辨别,是否发信用卡
multiclass classification: y={1,2......K},多元分类问题,如辨别水果的种类
regression: y=R,线性回归问题,如ag课程中经典的房价预测问题
structured learning: y=structures,结构学习问题,如自然语言处理中学习得到一段话的分词结构
........and a lot more!
这里便是阐述输出空间不同决定了机器学习的类别,也可以认为说是要解决的问题不同
Learning with Different Data Label $y_n$
supervised: all $y_n$,监督学习,当所有的结果都已经标注时,如前面我们学习的是否发信用卡的问题
unsupervised:no $y_n$,无监督学习,当所有的结果都没有标注时,如聚类算法
semi-supervised:some $y_n$,半监督学习,当一部分结果已经标注时,还有一部分结果未标注,常常是因为标注的代价比较大,如药物的药效预测
reinforcement: implicit $y_n$ by goodness ($y_n$),增强学习,即我们不能将认知中的结果作为输入当成标注,但是我们有策略可以判断当前的预测效果,某种程度上等效于标注,如自然语言处理的分词过程,我们可以把用概率计算当前分词的有效性来进行衡量。在尝试的过程中学习到在特定的情境下选择哪种行动可以得到最大的回报
.......and more!
这里是阐述结果标注集不同时对机器学习类别的影响,可以理解成已有数据的不同
Learning with Different Protocol f -> ($(x_n, y_n)$)
batch: all known data,批量学习,如发信用卡问题,我们可以一次性将数据输入,得到一个最终的模型进行预测使用
online:sequenttial (passive) data,在线学习,如垃圾邮件的辨识,可能之前存在一部分数据已经得到一个模型了,但用户在使用的过程可以产生反馈,近似于PLA算法过程发现了一个错误分类点进行模型改进
active:strategicall-observed data,主动学习,主动学习通过一定的算法或者说策略查询最有用的未标记样本,并交由专家进行标记,然后用查询到的样本训练分类模型来提高模型的精确度,这种也是面对标注样本存在困难时使用
这里是阐述数据交互方式不同对机器学习类别的影响
Learning with Different Input Space X
concrete:sophisicated ( and related ) physical meaning 具体的数据,如发信用卡时用户的有效特征
raw:simple physical meaning 原生数据,如辨识树木是否存在时,提供了多张图片,具体有效的数据需要人工或者机器处理,如定义成特征:是否对称,有没有绿色等,或者生成二维点矩阵等
abstract: no ( or little ) physical meaning 抽象数据,如判断用户给某首歌打分情况的判断,给了抽象的用户ID和歌曲ID,后期需要我们自己去找出或者定义有效具体数据
....... and more!
这里是阐述提供输入不同对机器学习类别的影响