摘要:
场景:投票问题。 https://arxiv.org/abs/2509.06870 : 重点在于进行数据配比 类似的论文: https://arxiv.org/pdf/2509.26626 : 多次聚合范式 https://arxiv.org/pdf/2506.09014 :直接训练 LLM作为优化 阅读全文
posted @ 2025-12-22 15:01
Brain404
阅读(6)
评论(0)
推荐(0)
摘要:
https://zhuanlan.zhihu.com/p/1902381952998281700 ToRL 时间:25.03 目的:学习Agent RL的基本知识 机构:tongyi实验室 链接:https://arxiv.org/pdf/2503.23383 数据处理 我们从NuminaMATH 阅读全文
posted @ 2025-12-22 14:13
Brain404
阅读(19)
评论(0)
推荐(0)
摘要:
环境配置 本文示例基于verl v0.5开发,环境配置详见这篇博客 数据准备 下载数据 python examples/data_preprocess/gsm8k_tool_agent_loop.py --local-dir <data-path> 一个示例数据为: { "data_source": 阅读全文
posted @ 2025-12-22 00:42
Brain404
阅读(24)
评论(0)
推荐(0)

浙公网安备 33010602011771号