阿基米德的澡盆

2026年5月9日

摘要：也算是组里的传统了，参加一下腾讯开悟的智能体比赛，大概忙活了半个月，成绩有但不多。很遗憾没能冲出重围，但还是学习到了不少东西，习惯性记录一下，脸滚键盘说不上什么顺序逻辑。 0.赛题介绍控制一个智能体，在地图中进行避障、躲避敌人、到达指定目标点的任务。很经典的强化学习算法环境，作为从理论新手到工阅读全文

posted @ 2026-05-09 10:14 阿基米德的澡盆阅读(8) 评论(0) 推荐(0)

2026年4月14日

[实践记录]用GPT5(codex)狠狠ntr claude code

摘要： v4发布剌！token大大大减价剌！又高智商又便宜的agent，感谢科技掌握在文明手中，感谢梁圣开源！ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 开始做项目以来，也是不得不用阅读全文

posted @ 2026-04-14 16:44 阿基米德的澡盆阅读(87) 评论(0) 推荐(0)

2026年3月30日

[实践记录]强化学习训练实录——2048实战

摘要：在学习了一段时间基础之后，也就想进行一些工程实践之前一直在倒立摆这个最简单的环境中进行学习和实践有一说一是有点太简单了上学期还在flappy bird环境中实现了一下简单的dqn和策略梯度这不，马上要做个项目，于是就想在稍微复杂一点的环境里实现一下强化学习，顺便试试看ppo啥的效果于是，想阅读全文

posted @ 2026-03-30 20:18 阿基米德的澡盆阅读(23) 评论(0) 推荐(0)

2026年3月25日

[论文速通]CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models——思维链与VLA

摘要： [2503.22020] CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models 也是紧跟着师兄们的步伐，了解了一下思维链，这个最近比较火的东西首先什么是思维链思维链顾名思义就是思维的链（废话）让阅读全文

posted @ 2026-03-25 09:36 阿基米德的澡盆阅读(20) 评论(0) 推荐(0)

2026年3月18日

[论文速通]Reinforcement Learning for Flow-Matching Policies——流匹配概率生成与GRPO探索

摘要：由于上学期读了pi0 pi0.5一家，所以是想了解一下流匹配如何做策略生成以及奖励函数生成然后就偶然看到了这一篇文章 [2507.15073] Reinforcement Learning for Flow-Matching Policies 虽然不是纯血的流匹配生成，但是也了解了一些相关内容也阅读全文

posted @ 2026-03-18 16:23 阿基米德的澡盆阅读(24) 评论(0) 推荐(0)

2026年3月17日

[学习笔记]grpo——逃课与统计学的魅力时刻

摘要：也算是看到前段时间比较热的内容了 grpo，deepseek成功的一大利器（感谢grpo和deepseek，没你我不知道似多少回了）不过grpo还是比较容易理解的，有了ppo的基础理解起来并不困难。那还是按照套路，分析一下ppo的缺陷吧 1.ppo到grpo 按照去年的报道，都在说deepse 阅读全文

posted @ 2026-03-17 17:41 阿基米德的澡盆阅读(41) 评论(0) 推荐(0)

[学习笔记]ppo_clip——kl散度的究极进化

摘要：在学习完了ppo-penalty之后，其实还是不够的。它虽然足够工程化，但是不够优美。尤其是kl散度，还要一步计算所以，更进一步，诞生了ppo-clip 那就来记录一下我的学习过程吧很不幸，依旧得从数学入手，我尽量说人话吧这里，ppo-clip给出了一些优美的工程近似。出发点依旧是kl散度阅读全文

posted @ 2026-03-17 10:36 阿基米德的澡盆阅读(41) 评论(0) 推荐(0)

2026年3月11日

[学习笔记]PPO_penalty：trpo的工程化版本

摘要：在trpo出现后，强化学习迎来了一波热潮。但是，trpo确实是有点复杂，而且有一些缺陷，比如：为了保护策略的稳定性，trpo使用硬约束，只要策略超出接受范围，就直接裁断，这让策略的利用率大大降低还有，二阶优化+线搜索确实是很难算啊。虽然从原本的二阶矩阵求逆已经简化为求解线性方程组，但是也不免让阅读全文

posted @ 2026-03-11 17:38 阿基米德的澡盆阅读(14) 评论(0) 推荐(0)

[实践记录]openclaw养虾流程

摘要：说实话，本来这个大火的东西没有怎么引起我的注意，本以为又是一个大模型韭菜自己折腾了半天，安装了一个，然后丢进去一个指令让它帮我查一下显存，花了半分钟才出结果好像没什么大用，还花了1毛钱的deepseek tokens 然后就吃灰了两天直到昨天，我折腾一个ai demo的时候搞不定老版本的库函数阅读全文

posted @ 2026-03-11 11:25 阿基米德的澡盆阅读(34) 评论(0) 推荐(0)

2026年3月5日

[学习笔记]trpo——对策略进行显式约束

摘要：再继续，actor-critic之后就是著名的trpo 这个东西熬，算是强化学习入门之后的第一个boss了第一遍看完，只觉得它是策略梯度的pro plus版本，后续看来，它是能作为接下来好几年开山之作的存在 0.Actor-Critic算法的优劣分析首先，还是分析一下之前Actor-Critic 阅读全文

posted @ 2026-03-05 23:44 阿基米德的澡盆阅读(19) 评论(0) 推荐(0)

阿基米德的澡盆

公告