上一页 1 ··· 39 40 41 42 43 44 45 46 47 ··· 73 下一页
摘要: 本文摘自:学习率和batchsize如何影响模型的性能? 初始的学习率一般有一个最优值,过大则导致模型不收敛,过小则导致模型收敛特别慢或者无法学习,下图展示了不同大小的学习率下模型收敛情况的可能性,图来自于cs231n。 阅读全文
posted @ 2021-01-12 21:54 Picassooo 阅读(2380) 评论(0) 推荐(0)
摘要: 在用pytorch搭建和训练神经网络时,有时为了查看非叶子张量的梯度,比如网络权重张量的梯度,会用到retain_grad()函数。但是几次实验下来,发现用或不用retain_grad()函数,最终神经网络的准确率会有一点点差异。用retain_grad()函数的训练结果会差一些。目前还没有去探究这 阅读全文
posted @ 2021-01-07 16:10 Picassooo 阅读(1796) 评论(0) 推荐(0)
摘要: 深度学习中的batch的大小对学习效果有何影响? 更大的batch size能更好的代表训练样本总体,所指示的梯度方向能更接近所有训练数据的极值方向。 阅读全文
posted @ 2021-01-07 12:26 Picassooo 阅读(136) 评论(0) 推荐(0)
摘要: 【Pytorch】对比clone、detach以及copy_等张量复制操作 阅读全文
posted @ 2021-01-06 23:06 Picassooo 阅读(253) 评论(0) 推荐(0)
摘要: KL散度理解以及使用pytorch计算KL散度 计算例子: 阅读全文
posted @ 2021-01-03 14:11 Picassooo 阅读(3522) 评论(0) 推荐(1)
摘要: 参考:相对熵(KL散度) 阅读全文
posted @ 2021-01-01 23:11 Picassooo 阅读(1600) 评论(0) 推荐(0)
摘要: 在pytorch中计算KLDiv loss时,注意reduction='batchmean',不然loss不仅会在batch维度上取平均,还会在概率分布的维度上取平均。 参考:KL散度-相对熵 阅读全文
posted @ 2021-01-01 23:09 Picassooo 阅读(1673) 评论(0) 推荐(0)
摘要: 计算机是如何启动的? 计算机的存储系统: (表格摘自https://www.zhihu.com/question/28445273) ROM在主板上,用来存放BIOS。 阅读全文
posted @ 2020-12-30 21:47 Picassooo 阅读(170) 评论(0) 推荐(0)
摘要: float16/32/64对神经网络计算的影响 阅读全文
posted @ 2020-12-30 21:33 Picassooo 阅读(173) 评论(0) 推荐(0)
摘要: 1. 如何才能把学术型PPT做的更美观?这里有4条万能技巧! 技巧总结: 使用白底来避免页面“补丁” 使用导航结构来增强页面之间的关联 从校徽中选取 PPT 主色调 示例: 2. 使用浅灰色块来模块化呈现 中文字体用微软雅黑会比较好看。 表格用三线表会比较好看。 阅读全文
posted @ 2020-12-20 15:29 Picassooo 阅读(272) 评论(0) 推荐(0)
上一页 1 ··· 39 40 41 42 43 44 45 46 47 ··· 73 下一页