zz这个系列文章可以好好看看,关于PPO,LLM,Clip等
https://zhuanlan.zhihu.com/p/654910335
【必看】历史技术文章导航
先看这几篇
https://zhuanlan.zhihu.com/p/7461863937
人人都能看懂的RL-PPO理论知识
https://zhuanlan.zhihu.com/p/677607581
图解大模型RLHF系列之:人人都能看懂的PPO原理与源码解读
https://blog.csdn.net/weixin_41544125/article/details/149936550
从 PPO 到 GRPO:为什么大模型后训练不再需要 Critic?
https://zhuanlan.zhihu.com/p/660476765
关于多模态经典之作CLIP,还有哪些细节是你不知道的
https://linxueyuan.notion.site/value-based-policy-based-ed586829827f45d681d968df012dd1e7
一些关于value-based policy-based actor-critic RL的补充
https://zhuanlan.zhihu.com/p/494836983
这里也讲了一些RL的知识

浙公网安备 33010602011771号