摘要:
训练时解码器使用目标句子作为输入,这样即使某一个时间步预测错了也不要紧,我们输入的目标句子一定是对的 repeat这个函数就是广播张量,但是具体机制好像很复杂,只解释书上那一句代码。现在X的形状是(num_steps,batch_size,embed_size),而在广播之前,context的形状是 阅读全文
posted @ 2025-02-13 16:03
最爱丁珰
阅读(25)
评论(0)
推荐(0)
摘要:
编码器是一个没有输出的RNN 这里的nn.Embbeding见下 下面我们用一个具体的例子说明 PyTorch 中 nn.Embedding 的输出。假设: import torch import torch.nn as nn # 创建嵌入层 # 参数说明: # num_embeddings=3 → 阅读全文
posted @ 2025-02-13 15:58
最爱丁珰
阅读(21)
评论(0)
推荐(0)
摘要:
“惩罚”那里,相当于对\(L_2\)正则化换了一种理解方法,我们给定了超参数\(\lambda\)(假设\(\lambda\)是最优的),去求解\(w\),相当于在求解极大极小问题,根据对偶性,可以转成极小极大问题,于是可以转换成带有约束的最优化问题,而这个约束就是限制\(w\)的\(L_2\)范数 阅读全文
posted @ 2025-02-13 15:27
最爱丁珰
阅读(7)
评论(0)
推荐(0)
摘要:
这里的\(f\)就是期望函数,而\(g\)就是在\(f\)的基础上加了噪声,所以是经验风险 阅读全文
posted @ 2025-02-13 12:40
最爱丁珰
阅读(9)
评论(0)
推荐(0)

浙公网安备 33010602011771号