会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
一介布衣、
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
下一页
2025年6月17日
强化推理在具身规划中的应用
摘要: https://arxiv.org/abs/2505.22050 摘要 具身规划要求智能体基于动态视觉观测和自然语言目标做出连贯的多步决策。尽管最新的视觉-语言模型(VLM)在静态感知任务上表现优异,但它们在具身环境中的时序推理、空间理解和常识落地等方面仍然存在明显短板。本文提出了一种将R1风格推理
阅读全文
posted @ 2025-06-17 10:24 一介布衣、
阅读(69)
评论(0)
推荐(0)
2025年6月16日
RoboBrain:一个从抽象到具体的统一机器人操作大脑模型
摘要: https://arxiv.org/abs/2502.21257 摘要 近年来,多模态大语言模型(MLLMs)在多模态场景中展现出了卓越的能力。然而,它们在机器人场景中的应用,尤其是长时序操作任务,仍存在显著局限。这些局限主要源于当前MLLMs缺乏三项机器人“大脑”核心能力:规划能力(将复杂操作指令
阅读全文
posted @ 2025-06-16 15:30 一介布衣、
阅读(93)
评论(0)
推荐(0)
2025年6月13日
RoboOS:一种用于跨体与多智能体协作的分层具身框架
摘要: https://arxiv.org/abs/2505.03673 https://github.com/FlagOpen/RoboOS 摘要 具身智能的兴起为新一代工业生态系统中的多智能体协作带来了前所未有的需求,推动了自主制造、自适应服务机器人以及网络物理生产架构等范式的变革。 然而,当前的机器人
阅读全文
posted @ 2025-06-13 15:15 一介布衣、
阅读(208)
评论(0)
推荐(0)
2025年5月30日
WebDancer: 迈向自主寻求信息智能体
摘要: https://arxiv.org/abs/2505.22648 https://github.com/Alibaba-NLP/WebAgent 摘要 应对复杂的现实世界问题需要深入的信息检索和多步推理。近期在智能体系统方面的进展,以 Deep Research 为代表,凸显了自主多步研究的潜力。在
阅读全文
posted @ 2025-05-30 18:39 一介布衣、
阅读(287)
评论(0)
推荐(0)
2025年5月27日
GRPO学习
摘要: https://blog.csdn.net/qq_38961840/article/details/145384852 https://arxiv.org/abs/2402.03300 强化学习中的基本概念 智能体、环境与交互 在传统的强化学习框架中,我们通常有一个智能体(Agent) 和一个环境(
阅读全文
posted @ 2025-05-27 14:49 一介布衣、
阅读(348)
评论(0)
推荐(0)
自主决定是否需要思考Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models
摘要: https://arxiv.org/abs/2505.16854 https://github.com/kokolerk/TON 摘要 强化学习(RL)已被证明是提高视觉-语言模型(VLMs)推理能力的有效后训练策略。组相对策略优化(GRPO)是一种近期突出的方法,通过鼓励模型在回答之前生成完整的推
阅读全文
posted @ 2025-05-27 10:31 一介布衣、
阅读(181)
评论(0)
推荐(0)
2025年5月15日
Qwen3 技术报告
摘要: https://github.com/QwenLM/Qwen3 核心创新: Qwen3 的“思维模式融合”是通过以下几个关键技术手段实现的: 持续监督微调(SFT) 在已经具备推理能力的模型(经过推理RL训练)上,继续用包含“思维”和“非思维”两类数据的混合数据集进行SFT。 “思维”数据:用第二阶
阅读全文
posted @ 2025-05-15 10:05 一介布衣、
阅读(1324)
评论(0)
推荐(0)
2025年5月13日
Qwen2.5-VL 技术报告
摘要: https://arxiv.org/abs/2502.13923 https://github.com/QwenLM/Qwen2.5-VL 摘要 我们介绍 Qwen2.5-VL,这是 Qwen 视觉-语言系列的最新旗舰模型,展示了基础能力和创新功能方面的显著进步。Qwen2.5-VL 在通过增强的视
阅读全文
posted @ 2025-05-13 10:21 一介布衣、
阅读(2314)
评论(0)
推荐(0)
2025年5月7日
Emboded-Reasoner:在具身交互任务中协同视觉搜索、推理和行动
摘要: https://arxiv.org/abs/2503.21696 摘要 近期的深度思维模型在数学和编程任务中展现出卓越的推理能力。然而,这些模型在需要通过图像-动作交织轨迹与环境进行连续交互的具身领域中的有效性仍然未被探索。我们提出了具身推理器(Embodied Reasoner),该模型将 o1
阅读全文
posted @ 2025-05-07 11:26 一介布衣、
阅读(271)
评论(0)
推荐(0)
2025年4月25日
InternVL3: 探索开源多模态模型的高级训练和测试方法
摘要: https://arxiv.org/abs/2504.10479 摘要 我们介绍InternVL3,这是InternVL系列的一个重要进展,采用了原生的多模态预训练范式。与将纯文本大型语言模型(LLM)改编为支持视觉输入的多模态大型语言模型(MLLM)不同,InternVL3在单一预训练阶段中,同时
阅读全文
posted @ 2025-04-25 15:29 一介布衣、
阅读(833)
评论(0)
推荐(0)
上一页
1
2
3
4
下一页
公告