摘要: 基于时序差分学习(TD Learning)的路径规划仿真,包含SARSA和Q-learning两种算法对比 一、仿真环境构建 1. 迷宫地图定义 %% 环境参数设置 gridSize = [12,4]; % 迷宫尺寸 startPos = [1,1]; % 起点坐标 goalPos = [12,4] 阅读全文
posted @ 2025-09-08 09:46 kiyte 阅读(13) 评论(0) 推荐(0)