随笔分类 - 深度学习
摘要:caffe默认使用编号为0的gpu, 若它的内存不够或正忙, 即使有其余gpu空闲, caffe也不会使用. 要用哪个gpu, 就要明确指定哪个. 不指定则使用默认. 命令行 代码指定 from https://github.com/BVLC/caffe/blob/master/docs/multi
阅读全文
摘要:(用到一个加一个, 并非完整的介绍) lr_policy 基本的learning rate 在 中由参数 配置. 配合 和其余的一些参数制定learning rate的变化策略. lr_policy="fixed" 在整个训练过程中learning rate不变. lr_policy="step"
阅读全文
摘要:NaN 计算softmax loss时要用 "numeric robust 的计算方式" . softmax与 loss可能要分开计算. 得到前者的计算方式可以是常规方法. 但计算后者时要注意无穷大和NaN的出现. "NaN的出现" 一定是因为出现了无穷大. 无穷大的出现则是因为变量存储的数值超出了
阅读全文
摘要:Transposed Convolution, 也叫Fractional Strided Convolution, 或者流行的(错误)称谓: 反卷积, Deconvolution. 定义请参考 "tutorial" . 此处也是对tutorial中的theano实现做一个总结, 得到一段可用的Dec
阅读全文
摘要:(离散)卷积操作其实是仿射变换的一种: 对输入向量进行线性变换, 再加一个bias. 是一种线性变换. 它本身也满足 "线性函数的定义" . 它可以被写成矩阵乘法形式. 以下图的卷积操作为例: 若将$3\times 3$的卷积核与$4\times 4$的输入都按行优先展开为一维列向量. 则定义在它们
阅读全文
摘要:以分类任务为例, 假设要将样本分为$n$个类别. 先考虑单个样本$(X, z)$. 将标题$z$转化为一个$n$维列向量$y = (y_1, \dots y_k, \dots, y_n)^T$: $$ y_k= \begin{cases} 0& k \neq z \\ 1& k = z \end{c
阅读全文
摘要:训练神经网络时, 什么时候可以将参数全部初始化为0?
阅读全文
摘要:以均方误差或交叉熵误差作为loss function的NN, 其输出神经元的敏感度是它的激活值与目标值的差值
阅读全文

浙公网安备 33010602011771号