摘要: 下面通过一个简单的“迷宫寻宝”例子,用伪代码和Python代码对比直接策略搜索(以PPO为例)和基于值函数的方法(以Q-Learning为例)的核心区别。 问题场景:迷宫寻宝 环境:3x3网格迷宫,起点(0,0),宝藏在(2,2),障碍物在(1,1) 动作:上下左右(离散动作空间) 奖励:到达宝藏+ 阅读全文
posted @ 2025-11-04 16:58 烤鱼匠 阅读(53) 评论(0) 推荐(0)
摘要: 强化学习总览 摘要 强化学习作为机器学习的三大范式之一,通过智能体与环境的交互学习最优行为策略,在人工智能领域占据重要地位。本文系统梳理了强化学习的理论基础、核心算法演进和前沿技术突破。研究发现,** 马尔可夫决策过程(MDP)构成了强化学习的数学基础,其核心包括状态转移概率和奖励函数。算法演进呈现 阅读全文
posted @ 2025-11-04 15:17 烤鱼匠 阅读(113) 评论(0) 推荐(0)
摘要: 直接策略搜索(Direct Policy Search)是强化学习的三大核心分支之一,与“基于值函数的方法”最大区别在于:不通过价值函数间接推导策略,而是直接将策略参数化,通过优化参数最大化长期累积奖励。其核心逻辑是“定义策略的数学形式→计算奖励对参数的梯度→沿梯度方向更新参数”,适用于连续行动空间 阅读全文
posted @ 2025-11-04 15:06 烤鱼匠 阅读(69) 评论(0) 推荐(0)
摘要: 强化学习基础知识(含公式与详细解释) 强化学习(Reinforcement Learning, RL)的核心是“智能体(Agent)在与环境(Environment)的交互中,通过试错学习最优策略(Policy),以最大化长期累积奖励(Reward)”。以下从核心概念、价值函数、贝尔曼方程、三大类核 阅读全文
posted @ 2025-11-04 14:54 烤鱼匠 阅读(76) 评论(0) 推荐(0)
摘要: 基于值函数的强化学习方法,核心是通过学习状态价值函数 ( V^\pi(s) ) 或 行动价值函数 ( Q^\pi(s,a) ),间接推导能最大化长期累积奖励的最优策略。动态规划(DP)、蒙特卡洛(MC)、时序差分(TD)是这类方法的三大核心分支,三者的差异集中体现在环境模型依赖、更新时机、目标值来源 阅读全文
posted @ 2025-11-04 14:33 烤鱼匠 阅读(111) 评论(0) 推荐(0)
摘要: 一、指针是什么? 指针是一个存储内存地址的变量,它指向(引用)内存中的另一个数据(变量、数组、对象等)。通过指针可以直接访问或修改它所指向的内存中的数据,这使得指针成为直接操作内存的重要工具。 简单说:指针本身是“地址容器”,通过它能找到并操作对应内存中的数据。 二、C++/Java/Python 阅读全文
posted @ 2025-09-25 12:04 烤鱼匠 阅读(45) 评论(0) 推荐(0)
摘要: C++ 的输入输出(I/O)主要通过标准库中的流对象实现,核心是对“数据流”的操作。其语法规则围绕“流对象”“操作符”和“数据类型匹配”展开,以下从标准 I/O(控制台) 和文件 I/O 两部分详细说明。 一、标准输入输出(控制台 I/O) 标准 I/O 用于程序与用户通过键盘/屏幕交互,核心依赖 阅读全文
posted @ 2025-09-25 10:35 烤鱼匠 阅读(454) 评论(0) 推荐(0)
摘要: C++、Java 和 Python 在输入输出(I/O)格式上有显著差异,主要体现在语法风格、处理方式和灵活性上。以下从标准输入输出、文件操作两个维度对比三者的差异,并结合示例说明核心特点。 一、标准输入输出(控制台 I/O) 标准 I/O 是程序与用户交互的基础,三者在语法和功能上差异明显: 1. 阅读全文
posted @ 2025-09-24 19:50 烤鱼匠 阅读(53) 评论(0) 推荐(0)
摘要: 要理解和计算时间复杂度与空间复杂度,关键是分析算法中重复执行的操作次数(时间)和额外开辟的存储空间(空间)如何随输入规模n变化。下面通过具体代码示例详细说明计算方法。 一、时间复杂度计算 时间复杂度关注核心操作的执行次数与n的关系,忽略常数项和低阶项,只保留最高阶项。 示例1:O(1) 常数时间 d 阅读全文
posted @ 2025-09-24 14:04 烤鱼匠 阅读(25) 评论(0) 推荐(0)
摘要: 数组和链表是两种常见的数据结构,它们在读取、插入、删除操作上有显著差异,下面详细说明: 1. 读取(访问)操作 数组: 数组是连续的内存空间,元素按索引(下标)存储,因此可以通过索引直接访问任意位置的元素,时间复杂度为 O(1)(常数时间)。例如,arr[5] 可以直接定位到第6个元素。 链表: 链 阅读全文
posted @ 2025-09-24 11:59 烤鱼匠 阅读(25) 评论(0) 推荐(0)