会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
阿基米德的澡盆
博客园
首页
新随笔
联系
订阅
管理
2026年5月9日
[实践记录]腾讯开悟赛后
摘要: 也算是组里的传统了,参加一下腾讯开悟的智能体比赛,大概忙活了半个月,成绩有但不多。 很遗憾没能冲出重围,但还是学习到了不少东西,习惯性记录一下,脸滚键盘说不上什么顺序逻辑。 0.赛题介绍 控制一个智能体,在地图中进行避障、躲避敌人、到达指定目标点的任务。 很经典的强化学习算法环境,作为从理论新手到工
阅读全文
posted @ 2026-05-09 10:14 阿基米德的澡盆
阅读(8)
评论(0)
推荐(0)
2026年4月14日
[实践记录]用GPT5(codex)狠狠ntr claude code
摘要: v4发布剌!token大大大减价剌!又高智商又便宜的agent,感谢科技掌握在文明手中,感谢梁圣开源! ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 开始做项目以来,也是不得不用
阅读全文
posted @ 2026-04-14 16:44 阿基米德的澡盆
阅读(87)
评论(0)
推荐(0)
2026年3月30日
[实践记录]强化学习训练实录——2048实战
摘要: 在学习了一段时间基础之后,也就想进行一些工程实践 之前一直在倒立摆这个最简单的环境中进行学习和实践 有一说一是有点太简单了 上学期还在flappy bird环境中实现了一下简单的dqn和策略梯度 这不,马上要做个项目,于是就想在稍微复杂一点的环境里实现一下强化学习,顺便试试看ppo啥的效果 于是,想
阅读全文
posted @ 2026-03-30 20:18 阿基米德的澡盆
阅读(23)
评论(0)
推荐(0)
2026年3月25日
[论文速通]CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models——思维链与VLA
摘要: [2503.22020] CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models 也是紧跟着师兄们的步伐,了解了一下思维链,这个最近比较火的东西 首先什么是思维链 思维链顾名思义就是思维的链(废话) 让
阅读全文
posted @ 2026-03-25 09:36 阿基米德的澡盆
阅读(20)
评论(0)
推荐(0)
2026年3月18日
[论文速通]Reinforcement Learning for Flow-Matching Policies——流匹配概率生成与GRPO探索
摘要: 由于上学期读了pi0 pi0.5一家,所以是想了解一下流匹配如何做策略生成以及奖励函数生成 然后就偶然看到了这一篇文章 [2507.15073] Reinforcement Learning for Flow-Matching Policies 虽然不是纯血的流匹配生成,但是也了解了一些相关内容 也
阅读全文
posted @ 2026-03-18 16:23 阿基米德的澡盆
阅读(24)
评论(0)
推荐(0)
2026年3月17日
[学习笔记]grpo——逃课与统计学的魅力时刻
摘要: 也算是看到前段时间比较热的内容了 grpo,deepseek成功的一大利器 (感谢grpo和deepseek,没你我不知道似多少回了) 不过grpo还是比较容易理解的,有了ppo的基础理解起来并不困难。 那还是按照套路,分析一下ppo的缺陷吧 1.ppo到grpo 按照去年的报道,都在说deepse
阅读全文
posted @ 2026-03-17 17:41 阿基米德的澡盆
阅读(41)
评论(0)
推荐(0)
[学习笔记]ppo_clip——kl散度的究极进化
摘要: 在学习完了ppo-penalty之后,其实还是不够的。 它虽然足够工程化,但是不够优美。尤其是kl散度,还要一步计算 所以,更进一步,诞生了ppo-clip 那就来记录一下我的学习过程吧 很不幸,依旧得从数学入手,我尽量说人话吧 这里,ppo-clip给出了一些优美的工程近似。 出发点依旧是kl散度
阅读全文
posted @ 2026-03-17 10:36 阿基米德的澡盆
阅读(41)
评论(0)
推荐(0)
2026年3月11日
[学习笔记]PPO_penalty:trpo的工程化版本
摘要: 在trpo出现后,强化学习迎来了一波热潮。 但是,trpo确实是有点复杂,而且有一些缺陷,比如: 为了保护策略的稳定性,trpo使用硬约束,只要策略超出接受范围,就直接裁断,这让策略的利用率大大降低 还有,二阶优化+线搜索确实是很难算啊。虽然从原本的二阶矩阵求逆已经简化为求解线性方程组,但是也不免让
阅读全文
posted @ 2026-03-11 17:38 阿基米德的澡盆
阅读(14)
评论(0)
推荐(0)
[实践记录]openclaw养虾流程
摘要: 说实话,本来这个大火的东西没有怎么引起我的注意,本以为又是一个大模型韭菜 自己折腾了半天,安装了一个,然后丢进去一个指令让它帮我查一下显存,花了半分钟才出结果 好像没什么大用,还花了1毛钱的deepseek tokens 然后就吃灰了两天 直到昨天,我折腾一个ai demo的时候搞不定老版本的库函数
阅读全文
posted @ 2026-03-11 11:25 阿基米德的澡盆
阅读(34)
评论(0)
推荐(0)
2026年3月5日
[学习笔记]trpo——对策略进行显式约束
摘要: 再继续,actor-critic之后就是著名的trpo 这个东西熬,算是强化学习入门之后的第一个boss了 第一遍看完,只觉得它是策略梯度的pro plus版本,后续看来,它是能作为接下来好几年开山之作的存在 0.Actor-Critic算法的优劣分析 首先,还是分析一下之前Actor-Critic
阅读全文
posted @ 2026-03-05 23:44 阿基米德的澡盆
阅读(19)
评论(0)
推荐(0)
下一页
公告