会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
wq0201coca
博客园
首页
新随笔
联系
订阅
管理
2023年11月17日
task02:免模型预测、免模型控制学习总结
摘要: 免模型预测 这节学习的主要是蒙特卡洛方法和时序差分法 有模型与免模型 状态转移概率是已知的,这种情况下使用算法我们称为有模型算法,而对于智能体来说环境是未知的,在该情况下使用算法,我们称之为免模型算法。在这里应该注意,除了动态规划外,其他的基础强化学习算法都是免模型的。 有模型强化学习的优点是不与真
阅读全文
posted @ 2023-11-17 16:32 红茶加冰五分糖
阅读(79)
评论(0)
推荐(0)
2023年11月15日
task01:绪论、马尔可夫过程、动态规划
摘要: 绪论 1.强化学习 1.1强化学习定义 强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题 1.2强化学习的应用 游戏
阅读全文
posted @ 2023-11-15 16:01 红茶加冰五分糖
阅读(153)
评论(0)
推荐(0)
2023年7月3日
tensorflow—CPU版安装教程
摘要: 一、创建TensorFlow虚拟环境(这里还没有进行安装) 检测目前创建了哪些环境:conda info --envs 创建虚拟环境:conda create --name tensorflow(可以自己命名) python=3.8 创建虚拟环境如下图所示: 此时激活自己创建的虚拟环境即可:acti
阅读全文
posted @ 2023-07-03 12:58 红茶加冰五分糖
阅读(602)
评论(0)
推荐(0)
公告