2025 年 12月 24 日随笔档案 - Brain404

2025年12月24日

摘要：和parallel-r1的本质区别：下面这三篇的故事在于推理加速；而parallel-r1的故事在于模型行为数据构建的两种方法： https://arxiv.org/abs/2508.08895 ：腾讯：主要的贡献：在多种数据集上测试，加入注意力机制这篇文档讲的是一种能让大语言模型（比如 Ch 阅读全文

posted @ 2025-12-24 15:04 Brain404 阅读(23) 评论(0) 推荐(0)

rh-li

公告