2025 年 3月 23 日随笔档案 - icuic

2025年3月23日

摘要：在强化学习中，SARSA和Q-Learning是两种经典的时间差分（TD）控制算法，用于优化智能体的策略。它们的核心区别在于目标Q值的计算方式，分别对应在线策略（On-Policy）和离线策略（Off-Policy）的学习范式。以下是两者的详细介绍和对比：一、Q-Learning 算法 1. 核心阅读全文

posted @ 2025-03-23 23:29 icuic 阅读(347) 评论(0) 推荐(0)

icuic

公告