2025 年 9月 19 日随笔档案 - deephub

2025年9月19日

摘要： Swarm sAmpling Policy Optimization，简称SAPO，这个名字听起来有点学术，但它解决的问题很实际。大规模语言模型的后训练一直是个让人头疼的事情——要么资源不够，要么效率太低。SAPO提出了一种去中心化的异步RL方案，让各个计算节点之间可以互相分享rollouts，避开阅读全文

posted @ 2025-09-19 20:33 deephub 阅读(12) 评论(0) 推荐(0)

deephub

overfit深度学习

公告