2025 年 9月 25 日随笔档案 - deephub

2025年9月25日

摘要：掩码注意力（Causal Attention）是生成式模型的核心技术，它传统自注意力机制有根本的不同，掩码注意力限制模型只能关注当前位置之前的tokens，确保了自回归生成的因果性。自注意力的掩码自注意力机制在Transformer编码器和BERT等模型中广泛应用。这种机制的特点是每个token 阅读全文

posted @ 2025-09-25 20:05 deephub 阅读(19) 评论(0) 推荐(0)

deephub

overfit深度学习

公告