摘要: 和parallel-r1的本质区别:下面这三篇的故事在于推理加速;而parallel-r1的故事在于模型行为 数据构建的两种方法: https://arxiv.org/abs/2508.08895 : 腾讯:主要的贡献:在多种数据集上测试,加入注意力机制 这篇文档讲的是一种能让大语言模型(比如 Ch 阅读全文
posted @ 2025-12-24 15:04 Brain404 阅读(23) 评论(0) 推荐(0)