学习强化学习的大致路线

强化学习就是学习“做什么(即如何把当前的情境映射成动作)才能使得数值化的收益信号最大化”,学习者不会被告知应该采取什么动作,而是必须通过自己的尝试去发现哪些动作会产生最丰厚的收益。在最有趣而困难的案例中,动作往往影响的不仅仅是及时收益,也会影响下一个情境,从而影响随后的收益。这两个特征--试错和延迟收益--强化学习两个最重要最显著的特征。

强化学习就是学习“做什么(即如何把当前的情境映射成动作)才能使得数值化的收益信号最大化”,学习者不会被告知应该采取什么动作,而是必须通过自己的尝试去发现哪些动作会产生最丰厚的收益。在最有趣而困难的案例中,动作往往影响的不仅仅是及时收益,也会影响下一个情境,从而影响随后的收益。这两个特征--试错和延迟收益--强化学习两个最重要最显著的特征。