摘要: 评估基于LLM的智能体在多轮对话中的表现:一项综述 https://dl.acm.org/doi/abs/10.1145/3793671 摘要 本综述考察了基于大语言模型(LLM)的智能体在多轮对话设置中的评估方法。采用PRISMA启发框架,我们系统性地回顾了近250篇学术文献,从多种出版渠道捕捉了 阅读全文
posted @ 2026-04-30 12:54 一介布衣、 阅读(98) 评论(0) 推荐(0)
摘要: DeepSeek-V4:迈向高效的百万Token上下文智能 摘要 我们发布了DeepSeek-V4系列的预览版本,其中包含两款性能强劲的混合专家(Mixture-of-Experts, MoE)语言模型——参数规模达1.6万亿(激活参数490亿)的DeepSeek-V4-Pro,以及参数规模为284 阅读全文
posted @ 2026-04-24 12:42 一介布衣、 阅读(1853) 评论(1) 推荐(0)
摘要: 摘要 大型语言模型(LLM)智能体在复杂任务中展现出惊人的成果,但它们通常孤立运行,未能从过往经验中学习。现有的基于记忆的方法主要存储原始轨迹,这些轨迹往往冗余且包含大量噪声。这阻碍了智能体提取对泛化至关重要的、高级且可复用的行为模式。在本文中,我们提出了 SkillRL,一个通过自动技能发现与递归 阅读全文
posted @ 2026-03-19 17:32 一介布衣、 阅读(462) 评论(0) 推荐(0)
摘要: https://arxiv.org/abs/2504.04170 摘要 回顾过去十年人工智能领域的进展,各种重大进展(例如目标检测、图像生成、大语言模型)使人工智能系统能够产生更具语义意义的输出,并在互联网场景中得到广泛应用。然而,当涉及到理解和与物理世界交互时,人工智能系统仍然面临困难。这揭示了一 阅读全文
posted @ 2026-02-07 15:25 一介布衣、 阅读(50) 评论(0) 推荐(0)
摘要: Moirai 2.0:时间序列预测,少即是多 摘要 我们推出了 Moirai 2.0,这是一个仅解码器的时间序列基础模型,在包含 3600 万个序列的新语料库上进行训练。该模型采用分位数预测和多令牌预测,提高了概率准确性和推理效率。在 Gift-Eval 基准测试中,它位列顶级预训练模型之列,并在准 阅读全文
posted @ 2026-01-14 16:16 一介布衣、 阅读(347) 评论(0) 推荐(0)
摘要: https://arxiv.org/pdf/2512.13564 摘要 记忆已经出现,并将继续作为基于基础模型的智能体(agent)的一项核心能力。它支撑着长时程推理、持续适应,以及与复杂环境的有效交互。随着关于智能体记忆的研究迅速扩展并获得前所未有的关注,该领域也变得日益碎片化:纳入“智能体记忆” 阅读全文
posted @ 2026-01-03 22:30 一介布衣、 阅读(1199) 评论(0) 推荐(0)
摘要: https://arxiv.org/abs/2507.21504 摘要 基于大型语言模型(LLM)的代理(Agent)的兴起为人工智能(AI)应用开辟了新的前沿,但对这些代理的评估仍然是一个复杂且尚不成熟的领域。本综述深入概述了 LLM 代理评估这一新兴领域,并引入了一个二维分类法,该分类法从以下两 阅读全文
posted @ 2025-10-28 15:34 一介布衣、 阅读(646) 评论(0) 推荐(0)
摘要: https://arxiv.org/abs/2510.17801 摘要 构建能够在动态、非结构化环境中感知、推理和行动的机器人仍然是一个核心挑战。近期的具身系统通常采用双系统范式,其中系统2(System 2)处理高层推理,而系统1(System 1)执行底层控制。在这项工作中,我们将系统2称为 “ 阅读全文
posted @ 2025-10-28 10:45 一介布衣、 阅读(267) 评论(0) 推荐(0)
摘要: AI 代理的高效上下文工程 来源:https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents 获取时间:2025-10-02 14:57:58 UTC 在应用型 AI 领域经历了几年以提示工程为关 阅读全文
posted @ 2025-10-03 09:18 一介布衣、 阅读(314) 评论(0) 推荐(0)
摘要: https://arxiv.org/abs/2508.09736 https://github.com/bytedance-seed/m3-agent 摘要 我们提出了 M3-Agent,这是一种新颖的多模态智能体框架,具备长期记忆能力。类似于人类, M3-Agent能够处理实时的视觉和听觉输入,并 阅读全文
posted @ 2025-09-30 16:49 一介布衣、 阅读(353) 评论(0) 推荐(0)