红茶加冰五分糖

2023年11月17日

摘要：免模型预测这节学习的主要是蒙特卡洛方法和时序差分法有模型与免模型状态转移概率是已知的，这种情况下使用算法我们称为有模型算法，而对于智能体来说环境是未知的，在该情况下使用算法，我们称之为免模型算法。在这里应该注意，除了动态规划外，其他的基础强化学习算法都是免模型的。有模型强化学习的优点是不与真阅读全文

posted @ 2023-11-17 16:32 红茶加冰五分糖阅读(99) 评论(0) 推荐(0)

2023年11月15日

task01:绪论、马尔可夫过程、动态规划

摘要：绪论 1.强化学习 1.1强化学习定义强化学习（Reinforcement Learning, RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题 1.2强化学习的应用游戏阅读全文

posted @ 2023-11-15 16:01 红茶加冰五分糖阅读(172) 评论(0) 推荐(0)

2023年7月3日

tensorflow—CPU版安装教程

摘要：一、创建TensorFlow虚拟环境（这里还没有进行安装）检测目前创建了哪些环境：conda info --envs 创建虚拟环境：conda create --name tensorflow（可以自己命名） python=3.8 创建虚拟环境如下图所示：此时激活自己创建的虚拟环境即可：acti 阅读全文

posted @ 2023-07-03 12:58 红茶加冰五分糖阅读(622) 评论(0) 推荐(0)

wq0201coca

公告