离心律

2026年7月15日

摘要：上采样最近邻插值最简单的上采样。没有可学习参数，不训练。做法是：新位置的值直接复制离它最近的旧位置。缺点是结果容易块状，不平滑。双线性插值固定上采样方法，也没有可学习参数。它不是直接复制，而是根据周围 4 个点做加权平均。低分辨率图像不是只有孤立的几个点，而是可以想象成一张连续的平面，只阅读全文

posted @ 2026-07-15 03:16 离心律阅读(6) 评论(0) 推荐(0)

2026年6月25日

MaMuJoCo Humanoid 连续控制项目报告

摘要：从手写 PPO 到 SB3 SAC：MaMuJoCo Humanoid 连续控制项目报告项目地址：https://github.com/xlcooper/Humanoid-locomotion-rl 1. 项目背景 Humanoid 是 MuJoCo 中经典的高维连续控制 locomotion 任阅读全文

posted @ 2026-06-25 03:39 离心律阅读(14) 评论(0) 推荐(0)

2026年6月20日

DDPG 算法直觉

摘要： DDPG 算法直觉 DDPG 是一种面向连续动作空间的 off-policy Actor-Critic 算法，它将 DPG 与 DQN 的经验回放、目标网络等稳定训练机制结合，使智能体能够直接学习连续控制任务中的动作策略。 DDPG 算法类型 off-policy DDPG 训练中采样时需要添加噪声阅读全文

posted @ 2026-06-20 01:09 离心律阅读(10) 评论(0) 推荐(0)

2026年6月15日

DQN 的两种扩展（DDQN，Dueling DQN）

摘要： 1. Double DQN DQN 在实际 Atari 任务中确实会发生明显的 \(Q\) 值高估，而且这种高估会伤害策略表现；Double DQN 把这两件事拆开，选动作和评估动作不再用同一个 max。回顾经典的 Q-learning 算法： \[Y_t^Q = R_{t+1} + \gamma 阅读全文

posted @ 2026-06-15 20:07 离心律阅读(17) 评论(0) 推荐(0)

2026年6月12日

Advantage 优势函数及其变种

摘要： Advantage 优势函数在强化学习中，智能体并不只是关心“一个动作最后得到了多少回报”，更重要的是判断：在当前状态下，这个动作是否比正常选择更好。仅使用回报 \(G_t\) 或动作价值 \(Q(s,a)\) 进行策略更新，容易受到状态本身难易程度的影响；有些状态天然容易获得高回报，有些状态即使阅读全文

posted @ 2026-06-12 19:41 离心律阅读(27) 评论(0) 推荐(0)

2026年6月11日

PPO 算法直觉

摘要： PPO 算法 Proximal Policy Optimization (PPO) 是一种强化学习（RL）算法，由 OpenAI 于 2017 年提出，用于在连续或离散动作空间中高效训练智能体。其核心思想是在保证学习稳定性的同时提升样本效率，是一种策略梯度方法的改进形式。 PPO算法类型 on-po 阅读全文

posted @ 2026-06-11 19:02 离心律阅读(33) 评论(0) 推荐(0)

2026年6月10日

REINFORCE 算法直觉

摘要： REINFORCE 算法标准 REINFORCE 方法属于最基础的基于策略的强化学习算法，也叫 Monte Carlo Policy Gradient。基于策略的强化学习算法，核心是直接学习“应该怎么选动作”，直接学习一个策略：\(π(a∣s)\) （在状态 \(s\) 下，选择动作 \(a\) 阅读全文

posted @ 2026-06-10 21:32 离心律阅读(17) 评论(0) 推荐(0)

2026年6月9日

基于 Windows + Ubuntu 练习 MuJoCo 模拟

摘要：基于 Windows + Ubuntu 练习 MuJoCo 模拟在本地 Windows 电脑上学习 MuJoCo 时，如果服务器是无图形界面的 Ubuntu 环境，最常见的问题是：仿真程序可以运行，但看不到 MuJoCo Viewer 的可视化窗口。本文记录了一套基于 Windows + Ubun 阅读全文

posted @ 2026-06-09 01:37 离心律阅读(45) 评论(0) 推荐(0)

2026年6月4日

DQN 算法直觉

摘要： DQN 算法强化学习中长期存在的挑战：如何直接从高维感官输入（如视觉）学习控制策略，而不依赖手工设计的特征。传统 RL 方法需要人工提取特征，限制了在复杂环境中的应用。Deep Q-Network（DQN）是一种将深度神经网络与 Q-learning 相结合的深度强化学习算法，旨在解决传统 Q-l 阅读全文

posted @ 2026-06-04 22:42 离心律阅读(15) 评论(0) 推荐(0)

2026年6月3日

熵 (Entropy) & 交叉熵 (Cross-Entropy) 总结

摘要：熵 (Entropy) & 交叉熵 (Cross-Entropy) 总结 Part 1：熵 (Entropy) 核心定义 "概率 × log(概率)" = "出现频率" × "出现时的信息量" = 平均信息量熵衡量一个概率分布 (Probability Distribution) 的不确定性 (U 阅读全文

posted @ 2026-06-03 22:58 离心律阅读(27) 评论(0) 推荐(0)

公告