AYE89

coding & learning

导航

机器学习:一些概念的通俗理解

Posted on 2017-11-15 10:36  AYE89  阅读(488)  评论(0编辑  收藏  举报

模型:输入到输出之间的“映射”

 

监督学习/非监督学习/增强学习:

学霸:“有效地”刷越多的题,学霸的学习成绩就越好

学神: 对各种输出未知问题的建模能力很强

老干部:“察言观色”,对周围环境的变化有很好的理解

 

非监督学习工业界很少应用,主要是在研究机构

 

监督学习场景下,机器需要的四要素:

模型,数据,目标函数(损失函数),优化算法

对应于——人,试题,评分标准和答案,改进方案

 

深度学习的崛起:

大数据时代来临,(信息的)原始数据维数急剧上升

让计算机用浅层的模型在原始信息上解决问题存在困难,即不容易获得很高的精度

“特征工程”:

(利用人工来设计方法)将原始特征转换为更容易处理的特征

实际上相当于前若干层神经元的工作由人脑完成,这时用浅层模型就可以处理很多复杂的问题

特征工程也就是这些特征生成的过程和方法,让浅层模型可以更好的完成最后的任务。

 

通过加大模型深度,深度学习能从原始数据学习出特征生成的方法,而不需要人工设计

相对于浅层模型,深度学习最大优势——效果提升显著(很多达到95%+)

深度两大难点

一:计算量,参数数量庞大

二:模型复杂度成倍增长,训练过程中不可控问题增多

浅层模型的损失函数往往可以满足凸函数的性质,数学特性非常好

深层模型中凸函数性质不再满足,优化曲面也变得不那么友好,优化过程中出现很多问题

 

凸函数:

通过“Jensen不等式”来判定,一阶导数条件+二阶导数条件

良好的数学性质:只要找到一个导数为0的局部最优值,就找到了全局最优值。

 

目标函数(损失函数)

通常采用平方损失函数,即与真实结果的方差

 

优化目标:最小化损失函数

优化三步骤(迭代):

一:为参数设定一些初始值

二:利用梯度信息计算参数的更新值

三:判断参数优化是否完成,如果完成则停止优化,否则回到第二步

优化的重点在第二步

如何判断优化是否完成?几种方法如下,

一:判断参数所在位置的梯度是否靠近0(梯度收敛)

二:判断参数的更新量是否靠近0(柯西列收敛)

三:判断预设的迭代轮数是否已完成

 

#数据挖掘

大数据三大关键技术:机器学习、云计算、众包

数据挖掘关键技术:机器学习+数据库