CV 第十课 RNN 上

1. 分类

　　one - many: one 可能是Image，输出的many可能是sequence of words

　　many - one: 可以是情感分析 sequence of words -> sentiment ； frames of a video -> actions 识别video中的动作

　　many to many : 机器翻译 seq of words -> seq of words ； Video classification on frame level

2. RNN也能处理这种情况： fixed input size and fixed output size

3. RNN 的更新：每一步更新hidden state

　　1）每一步使用的函数 fW，权重W 是相同的

4. Vanilla

　　1) 计算图如下：

　　　　一般的 h0 = 0，每一步将 ht-1 x带入 fW ht = tanh( Whh ht-1 + Whx Xt)

　　　　其中，在一次RNN运行中，W都是相同的

　　2） W的更新

　　　　运行完一次后，进行backpropagation，利用梯度对W进行更新

　　3） loss

　　　　运行单次RNN时，我们会得到 t 次 y，每一步都会得到一个loss，like softmax loss ，最后将这些Loss加在一起得到 L

　　　　然后Loss在每一步都计算 local gradient

　　　　loss.backward（）

5. 翻译

　　1）可以当时 one to many + many to one

　　2）将一连串的input encode 成单个 vector many to one

　　3) 单个输入，输出 output sequence

6. language modelling

　　1) 例如characters-level 的model ，预测下一个输入的character

　　　输入： one-hot的编码的h

　　　预测输出： e （2.2）

　　　实际最大： o （4.4）

　　措施：这个时候应该用 softmax loss 来度量我们对预测结果的不满意程度

　　2）

　　test time ,选取输出时，可以选取softmax中第一大或者第二大的值。

　　在输入为 'h' 向量这里，我们选择softmax中值第二大的作为输出。因为有时单词都有相同的前缀，图片也是。选取第二大的输出，可以产生大量不同的合理输出序列。

　　3) 梯度更新的问题：

　　问题：在做一些大样本的模型，如wikipedia的单词时，forward所有的单词计算loss，backward所有的单词计算梯度，才能前进一个learning rate，这样做太缓慢了，模型也不会收敛。

　　4）梯度更新的方法：

7. 模型结果~

　　用该模型读取一些文本，之后的输出效果非常好，比如莎士比亚形的文章，数学教科书，甚至还有code

　　https://gist.github.com/karpathy/d4dee 566867f8291f086

posted @ 2020-05-30 14:50 ChevisZhang 阅读(183) 评论(0) 编辑收藏举报

刷新页面返回顶部

ChevisZhang