2025 年 10月 16 日随笔档案 - Lab4AI大模型实验室

2025年10月16日

【论文复现上新】NeurIPS 2023! 经典论文！ DPO：你的语言模型，其实就是个奖励模型 | 强化学习 | 微调策略

摘要：

01 论文概述论文名称： Direct Preference Optimization: Your Language Model is Secretly a Reward Model —— DPO：你的语言模型，其实就是个奖励模型论文链接：https://arxiv.org/pdf/2305.1 阅读全文

posted @ 2025-10-16 17:17 Lab4AI大模型实验室阅读(53) 评论(0) 推荐(0)

7M参数，干翻巨无霸LLM！这款超小递归模型（TRM），在ARC-AGI上证明了“少即是多”

摘要：

TRM仅使用一个超小的2层网络（7M参数），通过更直接、完整的递归和深度监督机制，在多个基准测试上显著超越了HRM和许多主流LLMs。其最引人注目的成果是在ARC-AGI-1上达到45%的测试准确率，超过了参数量是其数百万倍的LLMs。阅读全文

posted @ 2025-10-16 15:40 Lab4AI大模型实验室阅读(74) 评论(0) 推荐(0)

lab4ai

公告