摘要: batch批梯度下降法:以前是所有的x1到xn之和减去yi到yn之和整体一遍算梯度下降 假设数据特别多 上亿只为了求个微分 还要重复 mini-batch:把训练集分成几个部分,假设500 万个样本,分成5000个小部分 每个1000样本 x^(i)第几个样本 x^[l]第几层的X x^{t}第几个 阅读全文
posted @ 2018-11-15 18:07 Hello蛋筒 阅读(296) 评论(0) 推荐(0)
摘要: 训练集 dev验证集 测试集 1 很多是人为设定的 层数 单元数 学习速率 激活函数等等 idea--code--run experiment--idea--不断迭代改进参数 使这个圈加快 参数都是慢慢测试出来的 首先要建立好的训练集 交叉验证集 测试集 1 小数据一般比如一两万或者几千几百数据 三 阅读全文
posted @ 2018-11-15 18:06 Hello蛋筒 阅读(160) 评论(0) 推荐(0)
摘要: 交叉熵定义了两个概率分布之间的距离,因为是概率分布 所以又引入softmax变为概率的形式 相加还是1 3 shallow neural network 神经网络输入层不算 上面是一个样本 若是多个样本: 依次算每个样本的结果 左下角的矩阵 每一列代表一个样本算出来的所有隐藏单元 z[][] 第几层 阅读全文
posted @ 2018-11-15 18:04 Hello蛋筒 阅读(114) 评论(0) 推荐(0)
摘要: Relu这图像也叫线性流动函数 不再用sigmoid函数当激活函数 相当于max(0,x)函数 比较0和当前值哪个大 可以把隐藏层看作 前面整合 结构化数据基于数据库 特征都有明确的定义 非结构化数据比如图片 音频 像素 关于数据规模 不同复杂程度下以及传统机器学习的表现 红线是传统算法 小规模数据 阅读全文
posted @ 2018-11-15 18:01 Hello蛋筒 阅读(156) 评论(0) 推荐(0)