2019 年 1月 12 日随笔档案 - 王振耀

2019年1月12日

摘要：强化学习概况正如在前面所提到的，强化学习是指一种计算机以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使程序获得最大的奖赏，强化学习不同于连督学习，区别主要表现在强化信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)，而不是告诉强化学习系统如阅读全文

posted @ 2019-01-12 15:23 王振耀阅读(6356) 评论(13) 推荐(31) 编辑

王振耀

公告