会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
mumujun12345
博客园
首页
新随笔
联系
订阅
管理
2025年3月6日
Lec2 交互学习策略和度量(MAB问题)
摘要: Chapter 2 MAB问题 参考:动手学强化学习,建议读者去看看原文 2.1 简介 智能体与环境交互学习,试错型学习。 多臂lh机(后简称MAB)问题,是一种简化的强化学习问题。 不存在状态信息,仅存在动作和奖励,是最简单的交互学习形式。 主要有探索和利用问题。 2.2 问题介绍 2.2.1 定
阅读全文
posted @ 2025-03-06 11:09 木木ちゃん
阅读(123)
评论(1)
推荐(0)
公告