zz大模型推理能力

https://blog.csdn.net/weixin_59191169/article/details/149421971
大模型推理能力全解析:从入门到原理,一文讲透实现逻辑与核心思路
PPO文章:
https://zhuanlan.zhihu.com/p/677607581
图解大模型RLHF系列之:人人都能看懂的PPO原理与源码解读
https://zhuanlan.zhihu.com/p/7461863937
人人都能看懂的RL-PPO理论知识
GRPO
https://developer.baidu.com/article/detail.html?id=3588245

浙公网安备 33010602011771号