上下文丢失

2025.10.14

位置编码外推失效是Transformer模型在长文本推理中出现上下文丢失的最常见架构限制,因为训练时使用的固定位置编码(如正弦编码)无法有效外推至超出训练长度的序列位置,导致位置信息丢失。

残差连接梯度消失主要影响训练而非推理时的上下文丢失;

前馈网络宽度不足影响模型容量但非长序列上下文依赖;

层归一化计算误差累积在长序列中可能发生但非主要因素。

posted @ 2025-10-14 00:48  sellingpear  阅读(7)  评论(0)    收藏  举报