04 2025 档案
摘要:
这是 大模型评估排障指南 系列文章的第一篇,敬请关注系列文章: 关于推理 关于 \(\LaTeX\) 公式解析 关于可复现性 模型运行非常慢怎么办? 调整 batch size 如果你想要评估结果完全可复现 (在特定的输入 prompt 和硬件条件下),你可以把 batch size 可以设为 1。
阅读全文
这是 大模型评估排障指南 系列文章的第一篇,敬请关注系列文章: 关于推理 关于 \(\LaTeX\) 公式解析 关于可复现性 模型运行非常慢怎么办? 调整 batch size 如果你想要评估结果完全可复现 (在特定的输入 prompt 和硬件条件下),你可以把 batch size 可以设为 1。
阅读全文
摘要:
这是 让 LLM 来评判 系列文章的第六篇,敬请关注系列文章: 基础概念 选择 LLM 评估模型 设计你自己的评估 prompt 评估你的评估结果 奖励模型相关内容 技巧与提示 LLM 评估模型已知偏差及缓解措施: 缺乏内部一致性:同一 prompt 输入评估模型执行多次得到的结果可能不一样 (如果
阅读全文
这是 让 LLM 来评判 系列文章的第六篇,敬请关注系列文章: 基础概念 选择 LLM 评估模型 设计你自己的评估 prompt 评估你的评估结果 奖励模型相关内容 技巧与提示 LLM 评估模型已知偏差及缓解措施: 缺乏内部一致性:同一 prompt 输入评估模型执行多次得到的结果可能不一样 (如果
阅读全文
摘要:
Open R1 项目进展第三期 本次更新带来三大突破性进展: CodeForces-CoTs 数据集: 通过 R1 模型蒸馏生成近 10 万条高质量编程思维链样本,同时包含 C++ 和 Python 双语言解题方案 IOI 基准测试: 基于 2024 国际信息学奥林匹克竞赛 (IOI) 构建的全新挑
阅读全文
Open R1 项目进展第三期 本次更新带来三大突破性进展: CodeForces-CoTs 数据集: 通过 R1 模型蒸馏生成近 10 万条高质量编程思维链样本,同时包含 C++ 和 Python 双语言解题方案 IOI 基准测试: 基于 2024 国际信息学奥林匹克竞赛 (IOI) 构建的全新挑
阅读全文
摘要:我们启动 Open R1 项目 已经两周了,这个项目是为了把 DeepSeek R1 缺失的部分补齐,特别是训练流程和合成数据。 这篇文章里,我们很高兴跟大家分享一个大成果: OpenR1-Math-220k,这是我们打造的第一个大规模数学推理数据集! 除此之外,我们还聊聊社区里一些让人兴奋的进展,
阅读全文

浙公网安备 33010602011771号