会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
你的撒凋零呦
博客园
首页
新随笔
联系
订阅
管理
2021年2月6日
《机器学习十讲》学习报告十
摘要: 强化学习: 智慧决策的过程,通过过程模拟和观察来不断学习,提高决策能力 策略:在特定状态下应该怎么采取行动 目的:找到最佳策略,即能够获得最大奖励的策略 数学模型: 策略和目标: 在马尔科夫决策过程中,最终需要求解一个策略,他是行动和状态之间的映射 分为确定性策略和随机性策略 目标:最大化累计奖励的
阅读全文
posted @ 2021-02-06 14:23 凋零_(
阅读(76)
评论(0)
推荐(0)
公告