摘要: 强化学习就是学习“做什么(即如何把当前的情境映射成动作)才能使得数值化的收益信号最大化”,学习者不会被告知应该采取什么动作,而是必须通过自己的尝试去发现哪些动作会产生最丰厚的收益。在最有趣而困难的案例中,动作往往影响的不仅仅是及时收益,也会影响下一个情境,从而影响随后的收益。这两个特征--试错和延迟 阅读全文
posted @ 2022-03-20 22:36 林海onrush 阅读(212) 评论(0) 推荐(0)
摘要: 本文对元启发式算法系列进行了初步总结,可以从总体上先进行了解,故称总论 阅读全文
posted @ 2022-03-04 18:48 林海onrush 阅读(3486) 评论(0) 推荐(1)
Live2D