摘要: ```py # 注意力机制的具体模块 # 兼容单头和多头 class Attention(nn.Module): """ Compute 'Scaled Dot Product Attention """ # QKV 尺寸都是 BS * ML * ES # (或者多头情况下是 BS * HC * M 阅读全文
posted @ 2023-06-25 18:31 绝不原创的飞龙 阅读(102) 评论(0) 推荐(0)
摘要: ```py # 标记嵌入就是最普通的嵌入层 # 接受单词ID输出单词向量 # 直接转发给了`nn.Embedding` class TokenEmbedding(nn.Embedding): def __init__(self, vocab_size, embed_size=512): super( 阅读全文
posted @ 2023-06-25 17:15 绝不原创的飞龙 阅读(84) 评论(0) 推荐(0)