Lab4AI大模型实验室

2025年10月17日

【每日Arxiv热文】ICLR2026 ！SAM3重磅来袭：能“听懂人话”的分割模型，性能狂飙2倍！

摘要：

1.论文概述论文标题：SAM3: Segment Anything with Concepts 作者团队：Anonymous authors 发布时间：ICLR2026 论文链接：https://openreview.net/pdf?id=r35clVtGzw 👉Lab4AI 大模型实验室链接：阅读全文

posted @ 2025-10-17 16:50 Lab4AI大模型实验室阅读(171) 评论(0) 推荐(0)

2025年10月16日

【论文复现上新】NeurIPS 2023! 经典论文！ DPO：你的语言模型，其实就是个奖励模型 | 强化学习 | 微调策略

摘要：

01 论文概述论文名称： Direct Preference Optimization: Your Language Model is Secretly a Reward Model —— DPO：你的语言模型，其实就是个奖励模型论文链接：https://arxiv.org/pdf/2305.1 阅读全文

posted @ 2025-10-16 17:17 Lab4AI大模型实验室阅读(53) 评论(0) 推荐(0)

7M参数，干翻巨无霸LLM！这款超小递归模型（TRM），在ARC-AGI上证明了“少即是多”

摘要：

TRM仅使用一个超小的2层网络（7M参数），通过更直接、完整的递归和深度监督机制，在多个基准测试上显著超越了HRM和许多主流LLMs。其最引人注目的成果是在ARC-AGI-1上达到45%的测试准确率，超过了参数量是其数百万倍的LLMs。阅读全文

posted @ 2025-10-16 15:40 Lab4AI大模型实验室阅读(74) 评论(0) 推荐(0)

2025年10月14日

【论文复现上新】AAAI2025！北理工团队提出FBRT-YOLO：面向实时航拍图像更快更好的目标检测 |计算机视觉|目标检测

摘要：北理工团队在AAAI 2025的论文中提出了一种专为实时航拍图像检测而深度优化的新架构FBRT-YOLO。阅读原文，欢迎访问Lab4AI.cn官网~ 阅读全文

posted @ 2025-10-14 19:14 Lab4AI大模型实验室阅读(137) 评论(0) 推荐(0)

无需人工奖励！Meta FAIR华人团队提出「早期经验学习范式」，AI智能体像人类一样“从错误中成长”

摘要：当前 AI 智能体训练面临两大核心难题： 1. 强化学习依赖明确奖励信号，但现实环境中（如医疗决策、复杂机器人控制）难以设计可验证的奖励函数，且长任务链导致「信用分配」困难。 2. 模仿学习依赖昂贵专家数据，但人类示范数据有限且模型无法通过失败经验迭代，泛化能力弱。 Meta 提出的「早期经验」（Early Experience）范式，在模仿学习与强化学习之间架起桥梁，让智能体通过「行动 - 观察 - 反思」自主学习，无需外部奖励。阅读论文原文，欢迎访问Lab4AI官网~ 阅读全文

posted @ 2025-10-14 17:28 Lab4AI大模型实验室阅读(82) 评论(0) 推荐(0)

lab4ai

公告