摘要: 场景:投票问题。 https://arxiv.org/abs/2509.06870 : 重点在于进行数据配比 类似的论文: https://arxiv.org/pdf/2509.26626 : 多次聚合范式 https://arxiv.org/pdf/2506.09014 :直接训练 LLM作为优化 阅读全文
posted @ 2025-12-22 15:01 Brain404 阅读(6) 评论(0) 推荐(0)
摘要: https://zhuanlan.zhihu.com/p/1902381952998281700 ToRL 时间:25.03 目的:学习Agent RL的基本知识 机构:tongyi实验室 链接:https://arxiv.org/pdf/2503.23383 数据处理 我们从NuminaMATH 阅读全文
posted @ 2025-12-22 14:13 Brain404 阅读(19) 评论(0) 推荐(0)
摘要: 环境配置 本文示例基于verl v0.5开发,环境配置详见这篇博客 数据准备 下载数据 python examples/data_preprocess/gsm8k_tool_agent_loop.py --local-dir <data-path> 一个示例数据为: { "data_source": 阅读全文
posted @ 2025-12-22 00:42 Brain404 阅读(24) 评论(0) 推荐(0)