Loading

摘要: 代码: 点击查看代码 ## from https://github.com/graykode/nlp-tutorial/tree/master/5-1.Transformer import numpy as np import torch import torch.nn as nn import t 阅读全文
posted @ 2025-11-26 16:30 SaTsuki26681534 阅读(9) 评论(0) 推荐(0)
摘要: 这个问题问到了Transformer的核心参数!Transformer的embedding size(嵌入维度) ,本质是输入数据(如单词、图像块)被转化为稠密向量后的维度,也是整个Transformer网络的基础维度(常与hidden size等价)。 核心含义与作用 实现“离散到连续”的转化:将 阅读全文
posted @ 2025-11-26 16:28 SaTsuki26681534 阅读(10) 评论(0) 推荐(0)