摘要: dppo、drpo、ode、sde、flowmatching算法 dppo、drpo、ode、sde、flowmatching算法任务 背景:强化学习(Reinforcement Learning, RL) 、大模型、多模态 算法 : dppo drpo ode sde flowmatching 1、听懂迭代后算法 2、概念得懂 总结与关联性 概念 核心思想 典型 阅读全文
posted @ 2025-07-20 23:30 feibo2011 阅读(172) 评论(0) 推荐(0)