摘要:
1. 概念:强化学习的基本思想是智能体 (Agent) 在与环境交互的过程中根据环境反馈得到的奖励不断调整自身的策略以实现最佳决策, 主要用来解决决策优化类的问题。智能体根据环境的状态(State),通过一个策略函数,输出一个行为(Action),将行为作用于环境,环境再给予智能体奖励(Reward 阅读全文
posted @ 2020-11-23 21:04
clayyjh
阅读(1716)
评论(0)
推荐(0)