武松数到五

导航

#

[置顶] DNN原理探究系列之目录与序章篇

摘要: 序言: 神经网络结构,作为最成功的机器学习模型之一,其工作原理一直被埋藏得比较深,其解释性以至于被称为黑盒。 自己对于DNN的理解也只能算刚踏入了门槛,对于人脑的原理与DNN原理之间的互通性,一直是非常深信的,所以想一窥DNN成功背后的数学原理。 通过DNN原理探究系列博文,希望能总结归纳已经理解的 阅读全文

posted @ 2017-11-11 18:01 武松数到五 阅读(534) 评论(0) 推荐(0) 编辑

2018年1月30日 #

信息压缩原理的进一步讨论。

摘要: 前面的文章里提到了有人观测到压缩过程并不是必须的,实验中观察到信息平面图如下: 从交互信息的定义可得: $I(X;T(\boldsymbol{W}))=H(T(\boldsymbol{W}))-H(T(\boldsymbol{W})\mid X)$ 又知道任意一层神经网络结构中,结构能承载的熵存在上 阅读全文

posted @ 2018-01-30 18:04 武松数到五 阅读(352) 评论(0) 推荐(0) 编辑

2018年1月18日 #

最大熵与最大似然,以及KL距离。

摘要: DNN中最常使用的离散数值优化目标,莫过于交差熵。两个分布p,q的交差熵,与KL距离实际上是同一回事。 $-\sum plog(q)=D_{KL}(p\shortparallel q)-\sum plog(p)$ 交差熵实际上就是KL距离减去熵。 监督学习时,p是目标的分布,无法被改变,能通过训练改 阅读全文

posted @ 2018-01-18 02:39 武松数到五 阅读(1378) 评论(1) 推荐(0) 编辑

2017年12月14日 #

详解信息瓶颈理论中的信息压缩

摘要: 讲述信息瓶颈理论的核心:信息压缩 之前,需要熟悉交互信息与泛化误差两个概念,不熟悉的建议回顾一下之前的文章 从信息论的角度分析DNN的工作原理 以及 信息在DNN马尔科夫链结构上的变化 信息压缩主要是指在DNN的训练过程中,会在全部特征层,或是一部分特征层,尤其是靠近输出端的特征层上,在训练大部分后 阅读全文

posted @ 2017-12-14 11:15 武松数到五 阅读(3820) 评论(0) 推荐(1) 编辑

2017年12月12日 #

信息在DNN马尔科夫链结构上的变化

摘要: 一个经典的全连接神经网络,如下图所示,输入层可以看做T0,输出层可以看做$\hat{\mathrm{Y}}$=TL+1。 考虑每一层隐藏层T与X、Y的交互信息:I(X; Ti), I(Ti, Y),交互信息部分的知识参见上一篇文章 在训练过程中每一轮把这两个交互信息画出来,横轴I(X; Ti),纵轴 阅读全文

posted @ 2017-12-12 19:09 武松数到五 阅读(511) 评论(0) 推荐(0) 编辑

2017年12月8日 #

从信息论的角度分析DNN的工作原理

摘要: 在前面的文章里,使用神经网络的任意函数拟合性结合了一点黎曼几何的坐标系变化的知识,解释了神经网络是怎样根据输入x,计算出每个分类下的能量Ei(x)的,再之后使用能量模型推算出了概率,从而展示了理论上可以使用DNN完成一个经典的分类问题。 然而这种解释只是最基本的可行性解释,并没有解答下列几个在训练时 阅读全文

posted @ 2017-12-08 18:48 武松数到五 阅读(1315) 评论(0) 推荐(0) 编辑

2017年11月29日 #

能量模型与softmax和RBM以及正态分布的关联

摘要: 上面一篇文章中探讨了玻尔兹曼分布的起源: 在不清楚目标的真实分布,也不知道样本分布的时候,假设任意输入与输出组合都是同样可能发生的,这样是最公平,最无偏的先验。 因为无法直接统计出给定任意一种输入x,各种y出现的概率,所以把题目转换一下,与其直接求p(y|x),不如假设概率都是由一个能量函数E来决定 阅读全文

posted @ 2017-11-29 01:07 武松数到五 阅读(1035) 评论(0) 推荐(1) 编辑

2017年11月21日 #

最大熵与玻尔兹曼分布

摘要: 熵的概念:熵是描述一个系统的混乱程度的度量,最基础的定义是: $S={{k}_{b}}\ln \Omega $ kb是热力统计学里的波尔茨曼常量,单位 焦耳/K,为了简便,在信息学里直接取值1 J/K。 $S=\sum\limits_{k}{{{S}_{k}}}=-\sum\limits_{k}{{ 阅读全文

posted @ 2017-11-21 18:41 武松数到五 阅读(4153) 评论(0) 推荐(0) 编辑

2017年11月20日 #

SGD训练时收敛速度的变化研究。

摘要: 一个典型的SGD过程中,一个epoch内的一批样本的平均梯度与梯度方差,在下图中得到了展示。 无论什么样的网络结构,无论是哪一层网络的梯度,大体上都遵循下面这样的规律: 高信号/噪音比一段时间之后,信号/噪音比逐渐降低,收敛速度减缓,梯度的方差增大,梯度均值减小。 噪音增加的作用及其必要性会在另一篇 阅读全文

posted @ 2017-11-20 01:36 武松数到五 阅读(2291) 评论(0) 推荐(0) 编辑

2017年11月14日 #

浅谈神经网络的坐标变换

摘要: 在探讨核方法的本质之前,想先谈论一下机器学习中的坐标变换coordinate transformation。 曾经在看到陈平教授讲解物理在经济学模型上的应用的公开课视频时,听到他的一句总结:“现在物理模型大部分在做的其实都是同一件事情,就是坐标变换。从一个规律不明显不方便总结的坐标系,变换到另一个容 阅读全文

posted @ 2017-11-14 17:09 武松数到五 阅读(1301) 评论(1) 推荐(0) 编辑

2017年11月13日 #

神经网络是如何拟合任意函数的

摘要: 一个最原始粗暴的拟合任意函数的思路,是将函数切成很多段线性函数,之后用逻辑门控制当x在哪一个区间时,某些逻辑门被激活,对应的线性函数的权重w与偏移量b在逻辑门的包裹下变成非0,计算出y在这一段的输出值。 需要推导出拟合函数y=f(x)需要哪些逻辑门,以及如何使用神经网络构建这些逻辑门。 开关函数 s 阅读全文

posted @ 2017-11-13 18:42 武松数到五 阅读(9196) 评论(0) 推荐(0) 编辑