摘要: Transformer网络 传统的序列模型(如RNN、GRU和LSTM)在处理长序列时存在渐变消失问题,导致难以捕捉长距离依赖。这些模型采用逐步处理方式,每次只能处理一个单词或记号,因此存在信息流瓶颈。随着模型复杂性的增加(例如,从RNN到GRU,再到LSTM),处理复杂性也显著增加。 Transf 阅读全文
posted @ 2025-02-11 23:27 钰见梵星 阅读(181) 评论(0) 推荐(0)
摘要: 序列模型和注意力机制 Seq2Seq模型主要用于处理输入序列到输出序列的映射问题,常用于机器翻译、语音识别等。主要由编码器(Encoder)和解码器(Decoder)构成。 编码器输入序列后生成一个固定长度的向量表示隐藏状态,通常采用RNN结构。输入序列的每个单词 \(x^{<t>}\) 并更新隐藏 阅读全文
posted @ 2025-02-11 16:50 钰见梵星 阅读(67) 评论(0) 推荐(0)