会员
周边
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
离心律
博客园
首页
新随笔
联系
订阅
管理
2026年6月10日
REINFORCE 算法直觉
摘要: REINFORCE 算法 标准 REINFORCE 方法属于最基础的基于策略的强化学习算法,也叫 Monte Carlo Policy Gradient。基于策略的强化学习算法,核心是直接学习“应该怎么选动作”,直接学习一个策略:\(π(a∣s)\) (在状态 \(s\) 下,选择动作 \(a\)
阅读全文
posted @ 2026-06-10 21:31 离心律
阅读(1)
评论(0)
推荐(0)
2026年6月9日
基于 Windows + Ubuntu 练习 MuJoCo 模拟
摘要: 基于 Windows + Ubuntu 练习 MuJoCo 模拟 在本地 Windows 电脑上学习 MuJoCo 时,如果服务器是无图形界面的 Ubuntu 环境,最常见的问题是:仿真程序可以运行,但看不到 MuJoCo Viewer 的可视化窗口。本文记录了一套基于 Windows + Ubun
阅读全文
posted @ 2026-06-09 01:37 离心律
阅读(4)
评论(0)
推荐(0)
2026年6月4日
DQN 算法直觉
摘要: DQN 算法 强化学习中长期存在的挑战:如何直接从高维感官输入(如视觉)学习控制策略,而不依赖手工设计的特征。传统 RL 方法需要人工提取特征,限制了在复杂环境中的应用。Deep Q-Network(DQN)是一种将深度神经网络与 Q-learning 相结合的深度强化学习算法,旨在解决传统 Q-l
阅读全文
posted @ 2026-06-04 22:42 离心律
阅读(7)
评论(0)
推荐(0)
公告