Selective Dyna-Style Planning Under Limited Model Capacity


发表时间:2020(ICML 2020)
文章要点:这篇文章考虑的情形是,用imperfect model来planning的时候,由于model的误差会导致planning不准,所以就需要有选择性的planning,通过度量predictive uncertainty只在模型预测准确的地方planning。这个predictive uncertainty的来源有三种,分别是aleatoric uncertainty,parameter uncertainty和model inadequacy。作者想说之前的方式通常用ensemble的方式来度量predictive uncertainty,这种方式主要考虑的是parameter uncertainty,没有考虑到model inadequacy。作者提出用异方差回归(theteroscedastic regression)的方式来度量,会更好的反应出由model inadequacy造成的predictive uncertainty。然后就根据predictive uncertainty来对n-step target value进行加权(selective model-based value expansion, selective MVE),也就是准确的地方权重大,不准确的地方权重小,这就是体现selective的地方(Rollout lengths with low variance are given more weight in the update and rollout lengths with high variance are given less)。
具体的,aleatoric uncertainty指来自dynamics function的uncertainty,比如不确定性转移。Parameter Uncertainty指参数模型带来的uncertainty,因为数据量是有限的,所以模型肯定有误差,造成了uncertainty。Model Inadequacy就是说不是由于数据有限造成的,而是由于模型的拟合能力有限造成的uncertainty。
首先,aleatoric uncertainty是不能消除的。另外,很多ensemble的方式被用来度量Parameter Uncertainty,大致做法就是去学很多个model(Ensembling neural networks),然后根据这些model的输出计算方差,作为uncertainty的度量。或者训练一个模型,但是用dropout的方式来得到多个预测(Monte Carlo dropout),然后计算方差。再比如在训练多个模型的时候,假如随机的先验,也就是随机初始化一个固定的网络,用来和训练的网络求和得到不同预测,然后求方差(Randomized prior functions (RPF))。等等方法。
然后作者这里是为了来度量Model Inadequacy造成的uncertainty。办法是去学一个异方差回归模型,相当于说除了学模型的下一个state,还要学这个state对应的方差,而不是通过输出去计算方差。所以,学习模型的状态转移从

变成了

写成损失函数就是

更具体的,写成神经网络的形式为

有了这个之后,就可以去做selective planning了,就是我可以算不同的n-step target value,而且用每个value的uncertainty作加权

得到target value

用来更新强化。
作者还说了,可以把ensemble求uncertainty的方式和用异方差回归去学uncertainty的方式结合起来,可以取得更稳健的效果。
总结:感觉很有意思的文章。而且这个文章的实验,虽然用的简单函数和环境,但是各个部分的ablation study做的很细,每个实验也是跑30个种子,一看就是Martha的风格。就是不要搞那么多复杂场景,不要去遍历Atari,就搞个简单的搞明白搞透,确实很不错。
疑问:里面实验部分有个true squared error (given by an oracle)具体是怎么得到的?

posted @ 2021-11-24 12:03  initial_h  阅读(67)  评论(0)    收藏  举报