【记忆网络 1 】 Memory Network

2015年，Facebook首次提出Memory Network。

应用领域：NLP中的对话系统。

1. 研究背景

大多数机器学习模型缺乏一种简单的方法来读写长期记忆。

例如，考虑这样一个任务:被告知一组事实或一个故事，然后必须回答关于这个主题的问题。

循环神经网络(RNN) 经过训练来预测下一个(一组)单词的输出。----> 记忆通常太小，并且不能准确地记住过去的事实(知识被压缩到密集的向量中)。

RNNs在记忆方面有困难。

然而，例如，在视觉和听觉领域，观看一部电影并回答有关它的问题需要长时间的记忆。

2. 基本思想

推理 + 长期记忆。

将机器学习策略中的推理与记忆组件相结合，学习如何有效地使用以及组件。

3. 具体方法

记忆网络的组成

记忆 m + 四个组件 I、G、O、R

m：由m_i索引的objects数组，例如，向量数组或字符串数组。

I: input feature map (输入特征映射) 将输入转换为内部特征表示。

G: generalization (泛化) 根据新的输入更新记忆。在这个阶段，网络有机会压缩和泛化它的记忆以备将来使用。

O: output feature map (输出特征图) 在给定新的输入和当前记忆状态的情况下，在特征表示空间中生成一个新的输出。

R: response (响应) 将输出转换为所需的响应格式。例如，文本响应或操作。

流程

给定一个输入x(例如，输入字符、单词或句子)，流程如下:

1. 将x转换为内部特征表示I(x)；

2. 更新内存m_i给定新的输入: m_i = G(m_i, I(x), m)， ∀i ;

3. 给定新的输入和记忆，计算输出特征o: o = O(I(x), m) ; // 找到对应记忆

4. 最后，解码输出特征o给出最终响应:r = R(o)。 // 根据第三步找到的记忆生成答案

最简单的G：

H(.) ：选择记忆中的一个“插槽”。该简单G函数将在记忆中的H(x)的位置进行更新，其他地方不变。

思考：可以对记忆进行分组，根据输入的特征选择更新记忆中对应的组；记忆满了，可以加入“遗忘策略”。

4. 实施与评价

MemNN : memory neural networks // for text

基本模型：

$I$

$I$

$O$

$O$

$s_{O}$

候选支持记忆 $m_{i}$

$m_{i}$

$m_{i}$

最后， $R$

$R$

$W$

总结：O模块和R模块各有一种打分机制(s_O, s_R)，分别用来找到最匹配记忆（一个字典）和该字典中最匹配的单词。

例子

未来回答问题 $x =$

$x =$

在文中实验中，打分函数 $s_{O}$

$U$

$U$ $U$

$U$

训练

在完全有监督的设置下训练，在训练数据中给定应有的输入和回答，以及被标记的支持这个回答的句子（测试集中只有输入）。

即，在训练时知道匹配记忆和单词最佳选择。训练使用一个边际排序损失和随机梯度下降（SGD）来进行。对于给定真实回复 $r$

$\bar{f}, \bar{f^{'}}$

使用RNN来实现记忆神经网络的 $R$

$R$

接下来的部分，是一些基于基础模型的扩展。

词序列作为输入

如果输入是词而非句子级别，即词是流的形式（就像RNN经常处理的那样），并且陈述和问题都没有进行词分割，此时，需要修改下之前描述的方法。

加入“分割”函数（通过学习得到），输入单词的最后没有分割的序列以寻找分割点。当分割器触发时（指示当前序列时分割段），将序列写入记忆，然后就可以像以前一样处理。

这个分割器的建模方式和其他模块类似，以嵌入表示模型的形式：

其中 $W_{s e g}$

利用散列表的高效记忆

如果存储的记忆集合十分庞大，那么对所有记忆进行打分的代价将十分巨大。

使用散列的技巧来加速查找：将输入 $I (x)$

$I (x)$

建模写入时间

我们可以将何时一个内存被写入加入到我们的模型中。这对于回答固定事实的问题（“What is the capital of France?”）并不重要，但当回答一个如图1的故事相关的问题时却是重要的。对于给定的 $m_{j}$

$m_{j}$ $Φ_{t} (x, y, y^{'})$

建模生词

即使对于阅读量很大的人类来说，生词也是经常遇到。比如指环王中的单词“Boromir”。一个机器学习模型如何处理这个问题？一个可能的方式是使用语言模型：通过生词周围的词语，来预测可能的单词，并假设这个生词和预测的单词语义相似。我们提出的方法正是采用这个想法，但是我们将其融入到我们的网络 $s_{O}$

具体地，对于我们看到的单词，我们将其周围词保存在词袋中，一个词袋保存左侧的词语，另一个保存右侧的词语。任何未知的词语都可以这样表示。所以我们将特征表示 $D$

精准匹配和生词

由于低维度 $n$

也就是，向学习到的嵌入式分数加入“词袋”的匹配（使用一个混合参数\lambda）。另一个，相关的方法还是在这个 $n -$

5. 不足

不能进行端到端的训练。

6. 未来工作

下一篇会写关于端到端的记忆网络。

posted @ 2019-03-29 14:25 山竹小果阅读(802) 评论(0) 收藏举报

刷新页面返回顶部

【 记忆网络 1 】 Memory Network