Lecture 12:Neural Network

Lecture 12: Neural Netowrk

12.1 Motivation

               图  12-1  神经网络的表达能力很强

 

12.2 Neural Network Hypothesis

                                             图  12-2   神经网络中激活函数(不限于此)

 

12.3 Neural Network Learning

                               图  12-3

     就图 12-3 而言,如果采用的 tanh 做为激活函数。当然是可以用 gd 从后向前逐步求解。先不考虑海量的计算量,假设某一层网络的激活函数不是 tanh。那就不能用 bp 算法! tanh 有保护区,如果某一层的计算值处于饱和区,那么 bp 算法的效果也不会太好!

                                           图 12-4  tanh 激活网络的损失函数

从图 12-4 中可以看出神经网络的损失函数不是很容易优化,另外就算有办法 minized in-sample error, 所得模型的泛化性能也不见得好。因为该网络的 VC Dimension 可能很大

                      图 12-5  The VC Dimension of Neural Network

   

12.4 Optimization and Regularization

                                     图 12-6

 

题外话:

关键字: Biological Neurons (如 CNN)

Q1: 为什么神经网络有很多层? (这是计算时一层一层加上去,你可以把那些层当作一层 Hidden Layer。但是这个抽象出 Hidden Layer 只能用于原理性说明。在计算神经网络时,至少要制定要多少层,以及某些层的具体功能吧(比如 CNN 中的池化等))

T1: early stopping 这个词,记得在《基石》课程中提到的。当时以为 early stopping 在开车例子语境才有意义。没想到用的这么广!在 Boosting 算法中也提到过了 early stoppin 这个词!  early stopping 不能保证找到最好的,但是能避免选到最差的!! 理论解释性不好(剃刀理论也叫理论?)

 

posted @ 2018-01-17 19:35  tmortred  阅读(113)  评论(0)    收藏  举报