烤鱼匠 - 博客园

2025年11月4日

摘要：下面通过一个简单的“迷宫寻宝”例子，用伪代码和Python代码对比直接策略搜索（以PPO为例）和基于值函数的方法（以Q-Learning为例）的核心区别。问题场景：迷宫寻宝环境：3x3网格迷宫，起点(0,0)，宝藏在(2,2)，障碍物在(1,1) 动作：上下左右（离散动作空间）奖励：到达宝藏+ 阅读全文

posted @ 2025-11-04 16:58 烤鱼匠阅读(53) 评论(0) 推荐(0)

强化学习总览

摘要：强化学习总览摘要强化学习作为机器学习的三大范式之一，通过智能体与环境的交互学习最优行为策略，在人工智能领域占据重要地位。本文系统梳理了强化学习的理论基础、核心算法演进和前沿技术突破。研究发现，** 马尔可夫决策过程（MDP）构成了强化学习的数学基础，其核心包括状态转移概率和奖励函数。算法演进呈现阅读全文

posted @ 2025-11-04 15:17 烤鱼匠阅读(113) 评论(0) 推荐(0)

二、基于直接策略搜索的强化学习方法详细解释

摘要：直接策略搜索（Direct Policy Search）是强化学习的三大核心分支之一，与“基于值函数的方法”最大区别在于：不通过价值函数间接推导策略，而是直接将策略参数化，通过优化参数最大化长期累积奖励。其核心逻辑是“定义策略的数学形式→计算奖励对参数的梯度→沿梯度方向更新参数”，适用于连续行动空间阅读全文

posted @ 2025-11-04 15:06 烤鱼匠阅读(69) 评论(0) 推荐(0)

强化学习基础概括

摘要：强化学习基础知识（含公式与详细解释）强化学习（Reinforcement Learning, RL）的核心是“智能体（Agent）在与环境（Environment）的交互中，通过试错学习最优策略（Policy），以最大化长期累积奖励（Reward）”。以下从核心概念、价值函数、贝尔曼方程、三大类核阅读全文

posted @ 2025-11-04 14:54 烤鱼匠阅读(76) 评论(0) 推荐(0)

一、基于值函数的强化学习方法总结：动态规划（DP）、蒙特卡洛（MC）、时序差分（TD）

摘要：基于值函数的强化学习方法，核心是通过学习状态价值函数 ( V^\pi(s) ) 或行动价值函数 ( Q^\pi(s,a) )，间接推导能最大化长期累积奖励的最优策略。动态规划（DP）、蒙特卡洛（MC）、时序差分（TD）是这类方法的三大核心分支，三者的差异集中体现在环境模型依赖、更新时机、目标值来源阅读全文

posted @ 2025-11-04 14:33 烤鱼匠阅读(111) 评论(0) 推荐(0)

2025年9月25日

指针定义以及二维数组内存地址（java/c++/python)

摘要：一、指针是什么？指针是一个存储内存地址的变量，它指向（引用）内存中的另一个数据（变量、数组、对象等）。通过指针可以直接访问或修改它所指向的内存中的数据，这使得指针成为直接操作内存的重要工具。简单说：指针本身是“地址容器”，通过它能找到并操作对应内存中的数据。二、C++/Java/Python 阅读全文

posted @ 2025-09-25 12:04 烤鱼匠阅读(45) 评论(0) 推荐(0)

c++输入输出详解

摘要： C++ 的输入输出（I/O）主要通过标准库中的流对象实现，核心是对“数据流”的操作。其语法规则围绕“流对象”“操作符”和“数据类型匹配”展开，以下从标准 I/O（控制台）和文件 I/O 两部分详细说明。一、标准输入输出（控制台 I/O）标准 I/O 用于程序与用户通过键盘/屏幕交互，核心依赖阅读全文

posted @ 2025-09-25 10:35 烤鱼匠阅读(454) 评论(0) 推荐(0)

2025年9月24日

C++、Java 和 Python 在输入输出差别

摘要： C++、Java 和 Python 在输入输出（I/O）格式上有显著差异，主要体现在语法风格、处理方式和灵活性上。以下从标准输入输出、文件操作两个维度对比三者的差异，并结合示例说明核心特点。一、标准输入输出（控制台 I/O）标准 I/O 是程序与用户交互的基础，三者在语法和功能上差异明显： 1. 阅读全文

posted @ 2025-09-24 19:50 烤鱼匠阅读(53) 评论(0) 推荐(0)

空间复杂度和时间复杂度

摘要：要理解和计算时间复杂度与空间复杂度，关键是分析算法中重复执行的操作次数（时间）和额外开辟的存储空间（空间）如何随输入规模n变化。下面通过具体代码示例详细说明计算方法。一、时间复杂度计算时间复杂度关注核心操作的执行次数与n的关系，忽略常数项和低阶项，只保留最高阶项。示例1：O(1) 常数时间 d 阅读全文

posted @ 2025-09-24 14:04 烤鱼匠阅读(25) 评论(0) 推荐(0)

数组和链表读取、插入、删除以及查找的区别

摘要：数组和链表是两种常见的数据结构，它们在读取、插入、删除操作上有显著差异，下面详细说明： 1. 读取（访问）操作数组：数组是连续的内存空间，元素按索引（下标）存储，因此可以通过索引直接访问任意位置的元素，时间复杂度为 O(1)（常数时间）。例如，arr[5] 可以直接定位到第6个元素。链表：链阅读全文

posted @ 2025-09-24 11:59 烤鱼匠阅读(25) 评论(0) 推荐(0)

kaoyujiang

公告