2025 年 2月 13 日随笔档案 - 最爱丁珰

2025年2月13日

摘要：训练时解码器使用目标句子作为输入，这样即使某一个时间步预测错了也不要紧，我们输入的目标句子一定是对的 repeat这个函数就是广播张量，但是具体机制好像很复杂，只解释书上那一句代码。现在X的形状是(num_steps,batch_size,embed_size)，而在广播之前，context的形状是阅读全文

posted @ 2025-02-13 16:03 最爱丁珰阅读(25) 评论(0) 推荐(0)

9.7.1 编码器

摘要：编码器是一个没有输出的RNN 这里的nn.Embbeding见下下面我们用一个具体的例子说明 PyTorch 中 nn.Embedding 的输出。假设： import torch import torch.nn as nn # 创建嵌入层 # 参数说明： # num_embeddings=3 → 阅读全文

posted @ 2025-02-13 15:58 最爱丁珰阅读(21) 评论(0) 推荐(0)

11.2.3 约束

摘要： “惩罚”那里，相当于对\(L_2\)正则化换了一种理解方法，我们给定了超参数\(\lambda\)（假设\(\lambda\)是最优的），去求解\(w\)，相当于在求解极大极小问题，根据对偶性，可以转成极小极大问题，于是可以转换成带有约束的最优化问题，而这个约束就是限制\(w\)的\(L_2\)范数阅读全文

posted @ 2025-02-13 15:27 最爱丁珰阅读(7) 评论(0) 推荐(0)

11.1.1 优化和目标

摘要：这里的\(f\)就是期望函数，而\(g\)就是在\(f\)的基础上加了噪声，所以是经验风险阅读全文

posted @ 2025-02-13 12:40 最爱丁珰阅读(9) 评论(0) 推荐(0)

最爱丁珰

公告