摘要:
在GPU上训练数据模型搬到GPU上数据搬到GPU上损失函数计算搬到GPU上 阅读全文
posted @ 2020-02-26 14:04
程序员成长
阅读(503)
评论(0)
推荐(0)
摘要:
optim.SDG 或者其他、实现随机梯度下降法 待办实现随机梯度下降算法的参数优化方式另外还有class torch.optim.ASGD(params, lr=0.01, lambd=0.0001, alpha=0.75, t0=1000000.0, weight_decay=0)[source]实现平均随机梯度下降算法。 阅读全文
posted @ 2020-02-26 13:55
程序员成长
阅读(443)
评论(0)
推荐(0)
摘要:
ReLU(inplace=True),这里的inplace=true的意思 待办inplace=True means that it will modify the input directly, without allocating any additional output. It can sometimes slightly decrease the memory usage, but ... 阅读全文
posted @ 2020-02-26 13:44
程序员成长
阅读(1540)
评论(0)
推荐(0)
摘要:
batchsize用法 平均准确度和平均损失,以及实现前向运算的矩阵乘法方式,loss怎么反向传播的 待办使用batchsize可以把矩阵缩小,采用矩阵乘法的形式可以一次计算多个经过神经网络的结果,然后通过交叉熵进行计算总的损失得到结果。所以前向的理解主要是矩阵乘法,对应左行右列的相乘得到x1w1+x2w2+x3w3+....的一个结果,左侧对应的行数就是总的batchsize数,这也是分批次... 阅读全文
posted @ 2020-02-26 13:32
程序员成长
阅读(1612)
评论(0)
推荐(0)
摘要:
batchsize用法 以及实现前向运算的矩阵乘法方式 待办使用batchsize可以把矩阵缩小,采用矩阵乘法的形式可以一次计算多个经过神经网络的结果,然后通过交叉熵进行计算总的损失得到结果。所以前向的理解主要是矩阵乘法,对应左行右列 的相乘得到x1w1+x2w2+x3w3+....的一个结果,左侧对应的行数就是总的batchsize数,这也是分批次计算的要点 阅读全文
posted @ 2020-02-26 12:11
程序员成长
阅读(425)
评论(0)
推荐(0)