zz这个系列文章可以好好看看,关于PPO,LLM,Clip等

https://zhuanlan.zhihu.com/p/654910335

【必看】历史技术文章导航

 

先看这几篇

https://zhuanlan.zhihu.com/p/7461863937

人人都能看懂的RL-PPO理论知识

 

https://zhuanlan.zhihu.com/p/677607581

图解大模型RLHF系列之:人人都能看懂的PPO原理与源码解读

 

https://blog.csdn.net/weixin_41544125/article/details/149936550

从 PPO 到 GRPO:为什么大模型后训练不再需要 Critic?

 

 

https://zhuanlan.zhihu.com/p/660476765

关于多模态经典之作CLIP,还有哪些细节是你不知道的

 

https://linxueyuan.notion.site/value-based-policy-based-ed586829827f45d681d968df012dd1e7

一些关于value-based policy-based actor-critic RL的补充

 

https://zhuanlan.zhihu.com/p/494836983

这里也讲了一些RL的知识 

 

posted @ 2025-12-26 16:48  blcblc  阅读(3)  评论(0)    收藏  举报