摘要: Reinforcement Learning 对于控制决策问题的解决思路:设计一个回报函数(reward function),如果learning agent(如上面的四足机器人、象棋AI程序)在决定一步后,获得了较好的结果,那么我们给agent一些回报(比如回报函数结果为正),得到较差的结果,那么... 阅读全文
posted @ 2015-10-31 13:17 Xuesong 阅读(839) 评论(0) 推荐(0) 编辑