摘要: 在强化学习中,SARSA和Q-Learning是两种经典的时间差分(TD)控制算法,用于优化智能体的策略。它们的核心区别在于目标Q值的计算方式,分别对应在线策略(On-Policy)和离线策略(Off-Policy)的学习范式。以下是两者的详细介绍和对比: 一、Q-Learning 算法 1. 核心 阅读全文
posted @ 2025-03-23 23:29 icuic 阅读(267) 评论(0) 推荐(0)