RNN Train和Test Mismatch

李宏毅深度学习

https://www.bilibili.com/video/av9770302/?p=8

 

在看RNN的时候,你是不是也会觉得有些奇怪,

Train的过程中,

是把训练集中的结果作为下一步的输入

目标函数,是每一步的真实输出和训练集结果的交叉熵

 

Test的过程中,

是直接把每一步的输出作为下一步的输入

可以看到train和test的时候,每一步的输入是不一样的,这种不一致会带来什么问题?

 

对上面的树形结构,

表示学习的过程,如果网络完全正确的学习到我们的训练集,那就是左边的分支

但如果网络只在第一步没有学对,选择了B,而不是A

那么在test的时候,面对相同的句子,

那么它第一步会选B,但我们之前大部分的学习到的知识都集中在左边的分支,而右边的分支在学习的时候没有碰到过

所以对于网络后续的选择都只能乱选

从这个例子可以看出来,这种mismatch所带来的问题

 

 那么问题是,为什么train的时候,不也把真实的输出作为下一步的输入?

将真实输出作为下一步的输入,会导致网络很难训练

原因是,真实的输出是会变化的,

如上图,开始第一步的输出是B,那么第二步学到的是,输入是B的时候,我们也应该得到一个B

但是随着train的继续,第一步的输出会变成A,趋向正确的结果,这样,之前在第二步学的知识就没有用了,

所以对于训练过程中,我们需要保持condition的稳定性

 

那到底应该怎么样做?

Scheduled Sampling的方法就是每次用一个随机sampling来决定是用哪一个作为下一步的输入

那这个方法不是也会有我们上面说的不稳定问题吗?

注意上面的曲线图,这里sampling的概率是不断变化的,图表示的是用reference的概率随着训练次数的变化

可以看出来,刚开始选reference的概率非常大,所以刚开始和普通的RNN训练没有区别

但是随着训练次数的增多,慢慢的用model的概率会越来越大

这样做的好处是啥,

因为刚开始的时候model不稳定,所以用reference,但是随着训练的进行,model的输出越来越稳定,这时就换成用medel的输出来训练

这样做的好处是,在condition相对稳定的情况下,又可以消除train和test的mismatch

 

posted on 2018-06-08 17:47  fxjwind  阅读(715)  评论(0编辑  收藏  举报