摘要:
Attention 一、为什么需要 Attention 在基础 Seq2Seq 模型中,Encoder 会将整个输入序列压缩成一个固定长度的向量,再交给 Decoder 进行生成。 这种方式在短序列任务中尚可接受,但在实际应用中,很快会暴露出明显问题: 输入句子较长时,信息被严重压缩 Decoder 阅读全文
posted @ 2025-12-09 19:24
元始天尊123
阅读(4)
评论(0)
推荐(0)
摘要:
Seq2Seq 一、为什么需要 Seq2Seq 在前面学习 RNN / LSTM / GRU 时,模型大多解决的是这样一类问题: 输入一个序列,输出一个固定结果 例如文本分类、情感分析等。 但在很多 NLP 任务中,输入和输出都是序列,并且长度不固定,例如: 机器翻译 文本生成 对话系统 这类任务无 阅读全文
posted @ 2025-12-09 19:24
元始天尊123
阅读(4)
评论(0)
推荐(0)
摘要:
GRU 一、为什么要从 LSTM 走向 GRU 在实践了 LSTM 之后,可以明显感受到它在长序列建模上的优势,但同时也会发现一些现实问题: 结构较复杂,参数数量较多 训练速度相对较慢 在一些任务中,效果提升并不总是显著 这引出了一个自然的问题: 是否可以在保持序列建模能力的同时,简化模型结构? G 阅读全文
posted @ 2025-12-09 19:24
元始天尊123
阅读(3)
评论(0)
推荐(0)
摘要:
LSTM 一、为什么要从 RNN 走向 LSTM 在学习并实践了 RNN 之后,会遇到一个非常现实的问题: 当序列变长时,RNN 很难记住早期的信息。 在实际训练中,这通常表现为: 模型只能利用最近的几个时间步 远距离的上下文信息逐渐被“遗忘” 长文本任务效果明显下降 这一问题并不是代码实现错误,而 阅读全文
posted @ 2025-12-09 19:24
元始天尊123
阅读(4)
评论(0)
推荐(0)
摘要:
《人月传说》读后感 Frederick P.Brooks,Brooks被认为是“IBM 360系统之父”,他担任了360系统的项目经理,以及360操作系统项目设计阶段的经理。凭借在上述项目的杰出贡献,他、Bob Evans和Erich Bloch在1985年荣获了美国国家技术奖(National M 阅读全文
posted @ 2025-12-09 19:24
元始天尊123
阅读(3)
评论(0)
推荐(0)
摘要:
RNN 一、为什么需要 RNN 在 NLP 任务中,文本并不是一组无序的词,而是具有顺序关系的序列。 例如下面两句话: 我 喜欢 学习 NLP NLP 学习 喜欢 我 它们包含相同的词,但顺序不同,语义完全不同。 这说明: 词的顺序和上下文信息,对理解文本至关重要。 传统的词向量或 N-gram 方 阅读全文
posted @ 2025-12-09 19:23
元始天尊123
阅读(3)
评论(0)
推荐(0)

浙公网安备 33010602011771号