摘要: 免模型预测 这节学习的主要是蒙特卡洛方法和时序差分法 有模型与免模型 状态转移概率是已知的,这种情况下使用算法我们称为有模型算法,而对于智能体来说环境是未知的,在该情况下使用算法,我们称之为免模型算法。在这里应该注意,除了动态规划外,其他的基础强化学习算法都是免模型的。 有模型强化学习的优点是不与真 阅读全文
posted @ 2023-11-17 16:32 红茶加冰五分糖 阅读(79) 评论(0) 推荐(0)
摘要: 绪论 1.强化学习 1.1强化学习定义 强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题 1.2强化学习的应用 游戏 阅读全文
posted @ 2023-11-15 16:01 红茶加冰五分糖 阅读(153) 评论(0) 推荐(0)
摘要: 一、创建TensorFlow虚拟环境(这里还没有进行安装) 检测目前创建了哪些环境:conda info --envs 创建虚拟环境:conda create --name tensorflow(可以自己命名) python=3.8 创建虚拟环境如下图所示: 此时激活自己创建的虚拟环境即可:acti 阅读全文
posted @ 2023-07-03 12:58 红茶加冰五分糖 阅读(602) 评论(0) 推荐(0)