2025 年 4月随笔档案 - HuggingFace

摘要：

这是大模型评估排障指南系列文章的第一篇，敬请关注系列文章: 关于推理关于 \(\LaTeX\) 公式解析关于可复现性模型运行非常慢怎么办？调整 batch size 如果你想要评估结果完全可复现 (在特定的输入 prompt 和硬件条件下)，你可以把 batch size 可以设为 1。阅读全文

posted @ 2025-04-25 15:25 HuggingFace 阅读(438) 评论(0) 推荐(1)

让 LLM 来评判 | 技巧与提示

摘要：

这是让 LLM 来评判系列文章的第六篇，敬请关注系列文章: 基础概念选择 LLM 评估模型设计你自己的评估 prompt 评估你的评估结果奖励模型相关内容技巧与提示 LLM 评估模型已知偏差及缓解措施: 缺乏内部一致性：同一 prompt 输入评估模型执行多次得到的结果可能不一样 (如果阅读全文

posted @ 2025-04-09 16:01 HuggingFace 阅读(403) 评论(0) 推荐(0)

Open R1 项目进展第三期

摘要：

Open R1 项目进展第三期本次更新带来三大突破性进展: CodeForces-CoTs 数据集: 通过 R1 模型蒸馏生成近 10 万条高质量编程思维链样本，同时包含 C++ 和 Python 双语言解题方案 IOI 基准测试: 基于 2024 国际信息学奥林匹克竞赛 (IOI) 构建的全新挑阅读全文

posted @ 2025-04-07 11:52 HuggingFace 阅读(205) 评论(0) 推荐(0)

Open R1 项目进展第二期

摘要：我们启动 Open R1 项目已经两周了，这个项目是为了把 DeepSeek R1 缺失的部分补齐，特别是训练流程和合成数据。这篇文章里，我们很高兴跟大家分享一个大成果: OpenR1-Math-220k，这是我们打造的第一个大规模数学推理数据集！除此之外，我们还聊聊社区里一些让人兴奋的进展，阅读全文

posted @ 2025-04-01 14:12 HuggingFace 阅读(251) 评论(0) 推荐(1)

Hugging Face 博客

The AI community building the future.

04 2025 档案

公告