我的随笔

[论文速通]Reinforcement Learning for Flow-Matching Policies——流匹配概率生成与GRPO探索

阿基米德的澡盆 2026-03-18 16:23 阅读:4 评论:0 推荐:0

[学习笔记]grpo——逃课与统计学的魅力时刻

阿基米德的澡盆 2026-03-17 17:41 阅读:9 评论:0 推荐:0

[学习笔记]ppo-clip——kl散度的究极进化

阿基米德的澡盆 2026-03-17 10:36 阅读:8 评论:0 推荐:0

[学习笔记]PPO_penalty：trpo的工程化版本

阿基米德的澡盆 2026-03-11 17:37 阅读:8 评论:0 推荐:0

[实践记录]openclaw养虾流程

阿基米德的澡盆 2026-03-11 11:25 阅读:12 评论:0 推荐:0

[学习笔记]trpo——对策略进行显式约束

阿基米德的澡盆 2026-03-05 23:44 阅读:9 评论:0 推荐:0

[学习笔记]强化学习之actor-critic

阿基米德的澡盆 2026-03-05 17:21 阅读:3 评论:0 推荐:0

[学习笔记]强化学习之策略梯度

阿基米德的澡盆 2026-03-05 09:39 阅读:2 评论:0 推荐:0

[论文速通]TIDAL: Temporally Interleaved Diffusion and Action Loop for High-Frequency VLA Control

阿基米德的澡盆 2026-02-02 17:21 阅读:12 评论:0 推荐:0

[实践记录]论文归档项目

阿基米德的澡盆 2026-01-31 00:01 阅读:15 评论:0 推荐:1