2017/7/20 朱兴全教授学术讲座观点与总结第二讲:单个神经元/单层神经网络

一、神经网络的结构

 

 

习惯的强势:能量最小化   大脑控制区在人对某一个事情形成习惯后,在该事情发生时,作出判断时不再消耗能量。(能量最小化与误差最小化?我想知道这里的能量与一般的能量函数之间有没有什么联系的地方?)

 

前向网络:网络中只有输入到输出的连接(下面给出单层和多层前向网络)

 

 

非隐藏层中可以比较期望输出与真实输出(注意观察最后一层的独立性,各个输出对权重的调整互不影响)

 

Why RNN?

 

前后顺序有相关性,时间顺序之间相关性,例如:文本分析。

 

神经网络(结构、神经元、学习算法)

 神经元

神经元是神经网络中基本的信息处理单元,包括①一系列连接的权重Wi,②加法函数计算输入与权重的和,③激活函数:限制神经元的输出值大小(为什么要限制大小呢?)

激活函数

 

第一种是二值化,可以用于分类。第二种可以求导但是不连续。第三种是可以求导。

 

 

学习算法(重点)

  • 错误纠正(感知机)
  • 梯度下降(BP)
  • competitive learning(self organizing maps)

什么时候考虑神经网络?

 

 

 


二、单层神经网络

只考了一个神经元的训练,多个神经元的训练类似,只是输出不同

 

 

1、感知机训练规则  不保证获得最优曲线,只保证获得可区分的情况

 

 

缺点:

1、不断修改,不断抖动(遇到不符合即刻修改)

2、线性不可分问题不能解决

3、正确样本在划分正确以后就没有再利用(期望正确分类的那些好的性质也可以利用起来)

4、错误划分的错误程度没有计入考虑之中(不同程度考虑方案不同)

 

2、梯度下降学习法则

梯度迭代,权重更新沿梯度反方向

平方误差误差来构造二次方程(二次方程有全局最小值),二次函数前面的1/2主要是为了求导方便

缺点:按全部样本(一次计算出所有样本的情况,对ΔW进行累加)的ΔW来更改权重,计算量大。

 

选择学习率η要充分小,太大的时候容易越过最优点。

 

 

3、Incremental stochastic gradient descent 随机选择样本进行迭代

两种方式

第一种选择部分子集替代所有集合进行梯度迭代,这个时候也存在风险,有部分集合一直属于错分状态,没有利用到。第二种是在计算存在ΔW不为0的时候,就开始进行更新权重,迭代速度加快。

 

 学习规则的对比:

模型性能的验证

训练集和测试集的分割

  • 随机分割
  • 交叉验证:注意保证每一个小集合的分布与大数据集的分布要保持一致,同时每一个集合既要作为测试集也要作为训练集,如把集合分为A分为A1、A2、A3三个部分,这三个部分要与A的分布近似,分别选择三次,选择A1、A2作为训练集,A3作为测试集;选择A2、A3作为训练集,A1作为测试集;选择A3、A1作为训练集,A2作为测试集。

 

posted on 2017-07-22 09:11  不经意的浪漫  阅读(1420)  评论(0编辑  收藏  举报