摘要: 关键的函数为_tir_generate 下面是主rollout的类 # Copyright 2024 Bytedance Ltd. and/or its affiliates # # Licensed under the Apache License, Version 2.0 (the "Licen 阅读全文
posted @ 2025-12-31 09:20 Brain404 阅读(11) 评论(0) 推荐(0)
摘要: SFT-vs-RL:基础模型后训练中泛化与记忆的比较研究 论文核心概念🔍 这篇论文的核心问题是:在基础模型(如大型语言模型和视觉语言模型)的后训练阶段,监督微调(SFT)和强化学习(RL)两种技术如何影响模型的泛化能力和记忆倾向。泛化能力指的是模型将学到的知识应用到新任务或数据变体的能力,而记忆指 阅读全文
posted @ 2025-12-25 16:18 Brain404 阅读(27) 评论(0) 推荐(0)
摘要: 数据构建方案: code数据改为并行。仿照multiunvierse。 第一步:找到可能的困难点 第二步:进行并行生成 第三步:仿照ReTool,对数据进行mock 第四部:生成一条数据 方案备选: 从零开始构建数据,加载大的LLM做状态机转换,进行推理,构造sft的数据回答(没有办法加载闭源模型, 阅读全文
posted @ 2025-12-25 15:38 Brain404 阅读(14) 评论(0) 推荐(0)
摘要: 主要的方法分为:真实生成轨迹/对原有推理链改写/LLM直接生成 三类 最终的目的,都是构造出高质量的数据。 进一步引申:什么才是高质量的数据? Parallel 主要的三篇文章: APR(4月)-->Parallel-R1(9月)-->ThreadWeaver(12月) 细节 训练管线 APR: p 阅读全文
posted @ 2025-12-25 15:23 Brain404 阅读(19) 评论(0) 推荐(0)
摘要: ParaThinker:原生并行思维——一种扩展大语言模型测试时计算能力的新范式 1. 论文核心概念🔍 本文发现当前大语言模型(LLMs)通过增加序列长度(即让模型“思考更久”)来提升推理能力的测试时计算缩放策略存在一个根本性瓶颈。随着计算量增加,性能提升会逐渐饱和,这种现象被作者称为“隧道视野” 阅读全文
posted @ 2025-12-25 10:56 Brain404 阅读(20) 评论(0) 推荐(0)
摘要: 数据生成模版修改为 Solve the following problem step by step. During the reasoning process, whenever you encounter a step that may benefit from multiple perspec 阅读全文
posted @ 2025-12-25 09:59 Brain404 阅读(5) 评论(0) 推荐(0)
摘要: 和parallel-r1的本质区别:下面这三篇的故事在于推理加速;而parallel-r1的故事在于模型行为 数据构建的两种方法: https://arxiv.org/abs/2508.08895 : 腾讯:主要的贡献:在多种数据集上测试,加入注意力机制 这篇文档讲的是一种能让大语言模型(比如 Ch 阅读全文
posted @ 2025-12-24 15:04 Brain404 阅读(18) 评论(0) 推荐(0)
摘要: 场景:投票问题。 https://arxiv.org/abs/2509.06870 : 重点在于进行数据配比 类似的论文: https://arxiv.org/pdf/2509.26626 : 多次聚合范式 https://arxiv.org/pdf/2506.09014 :直接训练 LLM作为优化 阅读全文
posted @ 2025-12-22 15:01 Brain404 阅读(6) 评论(0) 推荐(0)
摘要: https://zhuanlan.zhihu.com/p/1902381952998281700 ToRL 时间:25.03 目的:学习Agent RL的基本知识 机构:tongyi实验室 链接:https://arxiv.org/pdf/2503.23383 数据处理 我们从NuminaMATH 阅读全文
posted @ 2025-12-22 14:13 Brain404 阅读(19) 评论(0) 推荐(0)
摘要: 环境配置 本文示例基于verl v0.5开发,环境配置详见这篇博客 数据准备 下载数据 python examples/data_preprocess/gsm8k_tool_agent_loop.py --local-dir <data-path> 一个示例数据为: { "data_source": 阅读全文
posted @ 2025-12-22 00:42 Brain404 阅读(21) 评论(0) 推荐(0)