一介布衣、

2025年6月27日

摘要： https://arxiv.org/abs/2501.11858 https://github.com/thunlp/EmbodiedEval 摘要多模态大语言模型（MLLMs）近年来取得了显著进展，为具身智能体的发展带来了广阔前景。目前用于评估MLLMs的基准主要采用静态图像或视频，评测场景局限阅读全文

posted @ 2025-06-27 14:24 一介布衣、阅读(112) 评论(0) 推荐(0)

2025年6月26日

AI Agents vs Agentic AI：概念分类、应用及挑战

摘要： https://arxiv.org/abs/2505.10468v1 摘要本综述批判性地区分了AI Agents与Agentic AI，提供了结构化的概念分类、应用映射和挑战分析，以澄清它们不同的设计理念和能力。我们首先概述了检索策略和基础定义，将AI Agents描述为由LLM和LIM驱动、面向阅读全文

posted @ 2025-06-26 15:28 一介布衣、阅读(499) 评论(0) 推荐(0)

2025年6月20日

EmbodiedBench：面向视觉驱动具身代理的多模态大语言模型综合评估体系

摘要： https://arxiv.org/abs/2502.09560 https://embodiedbench.github.io/ 摘要利用多模态大语言模型（MLLMs）构建具身智能体为解决现实世界任务提供了有前景的途径。尽管以语言为中心的具身智能体已受到广泛关注，但由于缺乏全面的评测框架，基于M 阅读全文

posted @ 2025-06-20 16:45 一介布衣、阅读(236) 评论(0) 推荐(0)

2025年6月17日

强化推理在具身规划中的应用

摘要： https://arxiv.org/abs/2505.22050 摘要具身规划要求智能体基于动态视觉观测和自然语言目标做出连贯的多步决策。尽管最新的视觉-语言模型（VLM）在静态感知任务上表现优异，但它们在具身环境中的时序推理、空间理解和常识落地等方面仍然存在明显短板。本文提出了一种将R1风格推理阅读全文

posted @ 2025-06-17 10:24 一介布衣、阅读(124) 评论(0) 推荐(0)

2025年6月16日

RoboBrain：一个从抽象到具体的统一机器人操作大脑模型

摘要： https://arxiv.org/abs/2502.21257 摘要近年来，多模态大语言模型（MLLMs）在多模态场景中展现出了卓越的能力。然而，它们在机器人场景中的应用，尤其是长时序操作任务，仍存在显著局限。这些局限主要源于当前MLLMs缺乏三项机器人“大脑”核心能力：规划能力（将复杂操作指令阅读全文

posted @ 2025-06-16 15:30 一介布衣、阅读(215) 评论(0) 推荐(0)

2025年6月13日

RoboOS：一种用于跨体与多智能体协作的分层具身框架

摘要： https://arxiv.org/abs/2505.03673 https://github.com/FlagOpen/RoboOS 摘要具身智能的兴起为新一代工业生态系统中的多智能体协作带来了前所未有的需求，推动了自主制造、自适应服务机器人以及网络物理生产架构等范式的变革。然而，当前的机器人阅读全文

posted @ 2025-06-13 15:15 一介布衣、阅读(409) 评论(0) 推荐(0)

2025年5月30日

WebDancer: 迈向自主寻求信息智能体

摘要： https://arxiv.org/abs/2505.22648 https://github.com/Alibaba-NLP/WebAgent 摘要应对复杂的现实世界问题需要深入的信息检索和多步推理。近期在智能体系统方面的进展，以 Deep Research 为代表，凸显了自主多步研究的潜力。在阅读全文

posted @ 2025-05-30 18:39 一介布衣、阅读(350) 评论(0) 推荐(0)

2025年5月27日

GRPO学习

摘要： https://blog.csdn.net/qq_38961840/article/details/145384852 https://arxiv.org/abs/2402.03300 强化学习中的基本概念智能体、环境与交互在传统的强化学习框架中，我们通常有一个智能体（Agent）和一个环境（阅读全文

posted @ 2025-05-27 14:49 一介布衣、阅读(546) 评论(0) 推荐(0)

自主决定是否需要思考Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models

摘要： https://arxiv.org/abs/2505.16854 https://github.com/kokolerk/TON 摘要强化学习（RL）已被证明是提高视觉-语言模型（VLMs）推理能力的有效后训练策略。组相对策略优化（GRPO）是一种近期突出的方法，通过鼓励模型在回答之前生成完整的推阅读全文

posted @ 2025-05-27 10:31 一介布衣、阅读(227) 评论(0) 推荐(0)

2025年5月15日

Qwen3 技术报告

摘要： https://github.com/QwenLM/Qwen3 核心创新： Qwen3 的“思维模式融合”是通过以下几个关键技术手段实现的：持续监督微调（SFT）在已经具备推理能力的模型（经过推理RL训练）上，继续用包含“思维”和“非思维”两类数据的混合数据集进行SFT。 “思维”数据：用第二阶阅读全文

posted @ 2025-05-15 10:05 一介布衣、阅读(2032) 评论(0) 推荐(0)

公告