利用强化学习算法解释人类脑对高维状态的抽象表示:how humans can map high-dimensional sensory inputs in actions

论文:
《Using deep reinforcement learning to reveal how the brain encodes abstract state-space representations in high-dimensional environments》
地址:
https://www.cell.com/neuron/fulltext/S0896-6273(20)30899-0
正文:
https://www.cell.com/neuron/pdf/S0896-6273(20)30899-0.pdf
补充信息:
https://www.cell.com/cms/10.1016/j.neuron.2020.11.021/attachment/57cc3979-b15e-468c-a4df-e8927360c70e/mmc1




文章的主要表达思想:
In Brief
Cross et al. scanned humans playing Atari
games and utilized a deep reinforcement
learning algorithm as a model for how
humans can map high-dimensional
sensory inputs in actions.
Representations in the intermediate
layers of the algorithm were used to
predict behavior and neural activity
throughout a sensorimotor pathway.




由于这个论文是生命科学的,属于生物学论文,虽然是使用AI算法中的DQN算法的原理来类比人类脑,但是主要的内容还是围绕生命科学的,因此没有太多的理解,不过文章中的一个观点感觉还是有些启发的:
分别使用CNN和VAE作为强化学习算法DQN的特征提取部分对算法性能的影响?
标准的DQN是使用CNN网络模型的,但是如果我们把一个训练好的基于CNN的DQN模型作为对比,把这个DQN模型对某个游戏环境运行得到的数据来训练一个VAE,然后用这个VAE来训练一个新的基于VAE的DQN,那么这个基于VAE的DQN的性能是会差于基于CNN模型的DQN的;文章中把这个分析为在训练基于神经网络的DQN时,如果把映射的动作信息和奖励回报值加入到训练中,也就是使用CNN模型的DQN,那么会得到更好的算法性能;在使用CNN的DQN进行训练时会把high level的特征提取出来,而不会把low level的特征提取出来,而VAE则是会报所有的信息都提取出来,而像基于CNN的DQN算法最后进行策略训练时使用的状态特征是筛除更高特征的信息,是和动作和奖励回报相关的,因此性能会更好。


posted on 2023-12-31 14:13  Angry_Panda  阅读(61)  评论(0)    收藏  举报

导航