摘要: MDP & Q-learning 1.基本概念 强化学习讨论的问题:一个智能体(agent)如何在一个复杂的环境(environment)中去极大化它所获得的奖励。通过感知环境的状态(state)对动作(action)的反应(reward),来指导更好的动作,从而获得最大的收益(return)。以上过程称为在交互中学习,这样的学习方 阅读全文
posted @ 2025-04-20 15:14 mumumu1 阅读(86) 评论(0) 推荐(0)
摘要: latex入门 常用latex格式,待补充 阅读全文
posted @ 2025-04-20 15:10 mumumu1 阅读(112) 评论(0) 推荐(0)