// // // //

2019年3月13日

摘要: dropout 是 regularization 方法,在rnn中使用方法不同于cnn 对于rnn的部分不进行dropout,也就是说从t-1时候的状态传递到t时刻进行计算时,这个中间不进行memory的dropout;仅在同一个t时刻中,多层cell之间传递信息的时候进行dropout。 因此,我 阅读全文
posted @ 2019-03-13 11:42 努力的孔子 阅读(988) 评论(0) 推荐(0) 编辑
 
摘要: 优化器可以通俗的理解成梯度下降那一套流程。 梯度下降 基本流程 a. 损失函数 b. 求导,计算梯度 c. 更新参数 d. 迭代下一批样本 可以对照着理解tf。 tf 优化器 正常使用流程 a. 创建优化器(也就是选择优化方法,只是选择方法,其他什么也没做) b. 指定损失函数和可优化参数 c. m 阅读全文
posted @ 2019-03-13 11:07 努力的孔子 阅读(800) 评论(0) 推荐(0) 编辑