摘要: 去年,OpenAI和DeepMind联手做了当时最酷的实验,不用经典的奖励信号来训练智能体,而是根据人类反馈进行强化学习的新方法。有篇博客专门讲了这个实验 Learning from Human Preferences,原始论文是《 Deep Reinforcement Learning from 阅读全文
posted @ 2019-05-14 07:44 Roger_Ceng 阅读(990) 评论(0) 推荐(0) 编辑