机器学习（ML）六之RNN基础

循环神经网络

下图展示了如何基于循环神经网络实现语言模型。目的是基于当前的输入与过去的输入序列，预测序列的下一个字符。循环神经网络引入一个隐藏变量

先看循环神经网络的具体构造。假𝑋_𝑡∈ℝ^𝑛×𝑑是时间步𝐻_𝑡∈ℝ^𝑛×ℎ是该时间步的隐藏变量，则：

𝐻_𝑡=𝜙(𝑋_𝑡𝑊_𝑥_ℎ+𝐻_𝑡₋₁𝑊_ℎ_ℎ+𝑏_ℎ).

需要将字符表示成向量，这里采用one-hot向量。假设词典大小是

循环神经网络中较容易出现梯度衰减或梯度爆炸，这会导致网络几乎无法训练。裁剪梯度（clip gradient）是一种应对梯度爆炸的方法。假设我们把所有模型参数的梯度拼接成一个向量

以下函数基于前缀prefix（含有数个字符的字符串）来预测接下来的num_chars个字符。这个函数稍显复杂，其中我们将循环神经单元rnn设置成了函数参数，这样在后面小节介绍其他循环神经网络时能重复使用这个函数。

我们通常使用困惑度（perplexity）来评价语言模型的好坏。回忆一下“softmax回归”一节中交叉熵损失函数的定义。困惑度是对交叉熵损失函数做指数运算后得到的值。特别地，

显然，任何一个有效模型的困惑度必须小于类别个数。在本例中，困惑度必须小于词典大小vocab_size。

跟之前章节的模型训练函数相比，这里的模型训练函数有以下几点不同：

posted @ 2020-02-14 17:18 Jaww 阅读(370) 评论(0) 收藏举报

刷新页面返回顶部