会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
icuic
博客园
首页
新随笔
联系
管理
订阅
2025年3月23日
SARSA和Q-Learning
摘要: 在强化学习中,SARSA和Q-Learning是两种经典的时间差分(TD)控制算法,用于优化智能体的策略。它们的核心区别在于目标Q值的计算方式,分别对应在线策略(On-Policy)和离线策略(Off-Policy)的学习范式。以下是两者的详细介绍和对比: 一、Q-Learning 算法 1. 核心
阅读全文
posted @ 2025-03-23 23:29 icuic
阅读(267)
评论(0)
推荐(0)
公告