摘要: 架构设计: 1、存在一些函数族,当深度大于等于d时可以被高效地近似,而当深度被限制在小于d的时候,需要一个远大于之前的模型; 2、可以从层i跳到层i+2,这样甚至有利于反馈的进行,梯度更容易从输出层流向接近输入的层; 3、 疑问: 1、上面知识点1的直觉理解; 2、 阅读全文
posted @ 2018-08-15 21:34 loooffeeeey 阅读(82) 评论(0) 推荐(0)
摘要: 隐藏单元: 1、整流线性单元是隐藏单元极好的默认选择; 2、在实践中,可以放心地忽略掉隐藏层激活函数的不可微性; 3、sigmoid饱和区域过大使得基于梯度的学习变得非常困难,所以现在隐藏单元的激活函数不推荐使用sigmoid; 4、在很多情况下,更深的模型能够减少表示期望函数所需要的单元的数量。 阅读全文
posted @ 2018-08-15 17:41 loooffeeeey 阅读(90) 评论(0) 推荐(0)
摘要: svm: 1、SVM是用来解决二分类问题的有监督学习算法,在引入了核方法之后SVM也可以用来解决非线性问题。 2、用于训练逻辑回归或 SVM 的凸优化算法那样保证全局收敛。凸优化从任何一种初始参数出发都会收敛(理论上如此——在实践中也很鲁棒但可能会遇到数值问题)。 前馈神经网络: 1、对于前馈神经网 阅读全文
posted @ 2018-08-14 21:33 loooffeeeey 阅读(122) 评论(1) 推荐(0)
摘要: 信息熵: 对一个系统,我们到底知道多少信息,再反过来,0,代表着不确定性为零,我们知道系统的所有信息; 累加(概率×log概率的倒数); 信息熵代表着这个系统的不确定性,熵越大,不确定性就越高; 阅读全文
posted @ 2018-08-10 21:38 loooffeeeey 阅读(84) 评论(0) 推荐(0)
摘要: 这里是先验概率和后验概率的理解:人工神经网络,是机器学习的一种,其第一件事就是事先给各个神经节点赋予权重,也可以认为,这就是先验概率,而神经网络各节点权重的调整,完全可以看作是用后验概率对先验概率的刷新。 读的文章中的先验,基本上就是凭借经验啊,肉眼啊,去确定一些函数类型,阶啊,之类的; 关于置信区 阅读全文
posted @ 2018-08-09 21:26 loooffeeeey 阅读(131) 评论(2) 推荐(0)