摘要:
下面通过一个简单的“迷宫寻宝”例子,用伪代码和Python代码对比直接策略搜索(以PPO为例)和基于值函数的方法(以Q-Learning为例)的核心区别。 问题场景:迷宫寻宝 环境:3x3网格迷宫,起点(0,0),宝藏在(2,2),障碍物在(1,1) 动作:上下左右(离散动作空间) 奖励:到达宝藏+ 阅读全文
posted @ 2025-11-04 16:58
烤鱼匠
阅读(53)
评论(0)
推荐(0)
摘要:
强化学习总览 摘要 强化学习作为机器学习的三大范式之一,通过智能体与环境的交互学习最优行为策略,在人工智能领域占据重要地位。本文系统梳理了强化学习的理论基础、核心算法演进和前沿技术突破。研究发现,** 马尔可夫决策过程(MDP)构成了强化学习的数学基础,其核心包括状态转移概率和奖励函数。算法演进呈现 阅读全文
posted @ 2025-11-04 15:17
烤鱼匠
阅读(113)
评论(0)
推荐(0)
摘要:
直接策略搜索(Direct Policy Search)是强化学习的三大核心分支之一,与“基于值函数的方法”最大区别在于:不通过价值函数间接推导策略,而是直接将策略参数化,通过优化参数最大化长期累积奖励。其核心逻辑是“定义策略的数学形式→计算奖励对参数的梯度→沿梯度方向更新参数”,适用于连续行动空间 阅读全文
posted @ 2025-11-04 15:06
烤鱼匠
阅读(69)
评论(0)
推荐(0)
摘要:
强化学习基础知识(含公式与详细解释) 强化学习(Reinforcement Learning, RL)的核心是“智能体(Agent)在与环境(Environment)的交互中,通过试错学习最优策略(Policy),以最大化长期累积奖励(Reward)”。以下从核心概念、价值函数、贝尔曼方程、三大类核 阅读全文
posted @ 2025-11-04 14:54
烤鱼匠
阅读(76)
评论(0)
推荐(0)
摘要:
基于值函数的强化学习方法,核心是通过学习状态价值函数 ( V^\pi(s) ) 或 行动价值函数 ( Q^\pi(s,a) ),间接推导能最大化长期累积奖励的最优策略。动态规划(DP)、蒙特卡洛(MC)、时序差分(TD)是这类方法的三大核心分支,三者的差异集中体现在环境模型依赖、更新时机、目标值来源 阅读全文
posted @ 2025-11-04 14:33
烤鱼匠
阅读(111)
评论(0)
推荐(0)

浙公网安备 33010602011771号