上一页 1 2 3 4 5 6 7 ··· 22 下一页
摘要: 10.2节使用了高斯核来对查询和键之间的关系建模。 (10.2.6)中的 高斯核指数部分可以视为注意力评分函数(attention scoring function), 简称评分函数(scoring function), 然后把这个函数的输出结果输入到softmax函数中进行运算。 通过上述步骤,将 阅读全文
posted @ 2023-11-16 12:03 Yohoc 阅读(264) 评论(0) 推荐(0)
摘要: 上节介绍了框架下的注意力机制的主要成分 图10.1.3: 查询(自主提示)和键(非自主提示)之间的交互形成了注意力汇聚; 注意力汇聚有选择地聚合了值(感官输入)以生成最终的输出。 本节将介绍注意力汇聚的更多细节, 以便从宏观上了解注意力机制在实践中的运作方式。 具体来说,1964年提出的Nadara 阅读全文
posted @ 2023-11-16 11:39 Yohoc 阅读(396) 评论(0) 推荐(0)
摘要: 查询、键和值 自主性的与非自主性的注意力提示解释了人类的注意力的方式, 下面来看看如何通过这两种注意力提示, 用神经网络来设计注意力机制的框架, 首先,考虑一个相对简单的状况, 即只使用非自主性提示。 要想将选择偏向于感官输入, 则可以简单地使用参数化的全连接层, 甚至是非参数化的最大汇聚层或平均汇 阅读全文
posted @ 2023-11-16 10:17 Yohoc 阅读(86) 评论(0) 推荐(0)
摘要: 束搜索(Beam Search)、贪心搜索(Greedy Search)和穷举搜索(Exhaustive Search)是在搜索领域常用的三种搜索算法,它们在不同的场景下有着不同的特点和应用。 束搜索(Beam Search): 束搜索是一种用于寻找最有可能的输出序列的搜索算法,常用于序列生成任务, 阅读全文
posted @ 2023-11-15 17:29 Yohoc 阅读(1144) 评论(0) 推荐(0)
摘要: 我们将使用两个循环神经网络的编码器和解码器, 并将其应用于序列到序列(sequence to sequence,seq2seq)类的学习任务。 编码器 由于这里使用的是门控循环单元, 所以在最后一个时间步的多层隐状态的形状是 (隐藏层的数量,批量大小,隐藏单元的数量)。 如果使用长短期记忆网络,st 阅读全文
posted @ 2023-11-15 16:58 Yohoc 阅读(313) 评论(0) 推荐(0)
摘要: 正如我们在 9.5节中所讨论的, 机器翻译是序列转换模型的一个核心问题, 其输入和输出都是长度可变的序列。 为了处理这种类型的输入和输出, 我们可以设计一个包含两个主要组件的架构: 第一个组件是一个编码器(encoder): 它接受一个长度可变的序列作为输入, 并将其转换为具有固定形状的编码状态。 阅读全文
posted @ 2023-11-15 12:54 Yohoc 阅读(590) 评论(0) 推荐(0)
摘要: 语言模型是自然语言处理的关键, 而机器翻译是语言模型最成功的基准测试。 因为机器翻译正是将输入序列转换成输出序列的 序列转换模型(sequence transduction)的核心问题。 序列转换模型在各类现代人工智能应用中发挥着至关重要的作用。机器翻译(machine translation)指的 阅读全文
posted @ 2023-11-15 11:41 Yohoc 阅读(284) 评论(0) 推荐(0)
摘要: 到目前为止,我们只讨论了具有一个单向隐藏层的循环神经网络。 其中,隐变量和观测值与具体的函数形式的交互方式是相当随意的。 只要交互类型建模具有足够的灵活性,这就不是一个大问题。 然而,对一个单层来说,这可能具有相当的挑战性。 之前在线性模型中,我们通过添加更多的层来解决这个问题。 而在循环神经网络中 阅读全文
posted @ 2023-11-14 15:43 Yohoc 阅读(56) 评论(0) 推荐(0)
摘要: 长期以来,隐变量模型存在着长期信息保存和短期输入缺失的问题。 解决这一问题的最早方法之一是长短期存储器(long short-term memory,LSTM)(Hochreiter and Schmidhuber, 1997)。 它有许多与门控循环单元( 9.1节)一样的属性。 有趣的是,长短期记 阅读全文
posted @ 2023-11-14 15:10 Yohoc 阅读(256) 评论(0) 推荐(0)
摘要: 在 8.7节中, 我们讨论了如何在循环神经网络中计算梯度, 以及矩阵连续乘积可以导致梯度消失或梯度爆炸的问题。 下面我们简单思考一下这种梯度异常在实践中的意义: 我们可能会遇到这样的情况:早期观测值对预测所有未来观测值具有非常重要的意义。 考虑一个极端情况,其中第一个观测值包含一个校验和, 目标是在 阅读全文
posted @ 2023-11-14 11:21 Yohoc 阅读(237) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 ··· 22 下一页