摘要:
在Transformer中,Decoder部分内部的不同层通常可以并行工作,这意味着每个Decoder层可以同时处理整个序列。比如,在处理Self-Attention时,模型可以同时计算所有位置的注意力权重。 但在生成输出序列时,尽管Decoder内部的不同层可以并行工作,模型仍然需要按顺序逐步生成 阅读全文
posted @ 2023-12-01 11:09
笨笨和呆呆
阅读(522)
评论(0)
推荐(0)
摘要:
https://www.bilibili.com/video/BV1YU4y1c7UT/?p=3&spm_id_from=pageDriver&vd_source=5a8099d424866bf1cdbfa5a7afadeca6 阅读全文
posted @ 2023-12-01 09:18
笨笨和呆呆
阅读(54)
评论(0)
推荐(0)
浙公网安备 33010602011771号