摘要:
代码: 点击查看代码 ## from https://github.com/graykode/nlp-tutorial/tree/master/5-1.Transformer import numpy as np import torch import torch.nn as nn import t 阅读全文
posted @ 2025-11-26 16:30
SaTsuki26681534
阅读(9)
评论(0)
推荐(0)
摘要:
这个问题问到了Transformer的核心参数!Transformer的embedding size(嵌入维度) ,本质是输入数据(如单词、图像块)被转化为稠密向量后的维度,也是整个Transformer网络的基础维度(常与hidden size等价)。 核心含义与作用 实现“离散到连续”的转化:将 阅读全文
posted @ 2025-11-26 16:28
SaTsuki26681534
阅读(10)
评论(0)
推荐(0)

浙公网安备 33010602011771号