一介布衣、

2026年4月30日

摘要：评估基于LLM的智能体在多轮对话中的表现：一项综述 https://dl.acm.org/doi/abs/10.1145/3793671 摘要本综述考察了基于大语言模型（LLM）的智能体在多轮对话设置中的评估方法。采用PRISMA启发框架，我们系统性地回顾了近250篇学术文献，从多种出版渠道捕捉了阅读全文

posted @ 2026-04-30 12:54 一介布衣、阅读(98) 评论(0) 推荐(0)

2026年4月24日

DeepSeek-V4：迈向高效的百万Token上下文智能

摘要： DeepSeek-V4：迈向高效的百万Token上下文智能摘要我们发布了DeepSeek-V4系列的预览版本，其中包含两款性能强劲的混合专家（Mixture-of-Experts, MoE）语言模型——参数规模达1.6万亿（激活参数490亿）的DeepSeek-V4-Pro，以及参数规模为284 阅读全文

posted @ 2026-04-24 12:42 一介布衣、阅读(1853) 评论(1) 推荐(0)

2026年3月19日

SkillRL：通过递归技能增强强化学习进化智能体

摘要：摘要大型语言模型（LLM）智能体在复杂任务中展现出惊人的成果，但它们通常孤立运行，未能从过往经验中学习。现有的基于记忆的方法主要存储原始轨迹，这些轨迹往往冗余且包含大量噪声。这阻碍了智能体提取对泛化至关重要的、高级且可复用的行为模式。在本文中，我们提出了 SkillRL，一个通过自动技能发现与递归阅读全文

posted @ 2026-03-19 17:32 一介布衣、阅读(462) 评论(0) 推荐(0)

2026年2月7日

数字基因(Digital Gene)：通过解析概念认知物理世界

摘要： https://arxiv.org/abs/2504.04170 摘要回顾过去十年人工智能领域的进展，各种重大进展（例如目标检测、图像生成、大语言模型）使人工智能系统能够产生更具语义意义的输出，并在互联网场景中得到广泛应用。然而，当涉及到理解和与物理世界交互时，人工智能系统仍然面临困难。这揭示了一阅读全文

posted @ 2026-02-07 15:25 一介布衣、阅读(50) 评论(0) 推荐(0)

2026年1月14日

Moirai 2.0：时间序列预测，少即是多

摘要： Moirai 2.0：时间序列预测，少即是多摘要我们推出了 Moirai 2.0，这是一个仅解码器的时间序列基础模型，在包含 3600 万个序列的新语料库上进行训练。该模型采用分位数预测和多令牌预测，提高了概率准确性和推理效率。在 Gift-Eval 基准测试中，它位列顶级预训练模型之列，并在准阅读全文

posted @ 2026-01-14 16:16 一介布衣、阅读(347) 评论(0) 推荐(0)

2026年1月3日

【综述】AI智能体时代下的记忆

摘要： https://arxiv.org/pdf/2512.13564 摘要记忆已经出现，并将继续作为基于基础模型的智能体（agent）的一项核心能力。它支撑着长时程推理、持续适应，以及与复杂环境的有效交互。随着关于智能体记忆的研究迅速扩展并获得前所未有的关注，该领域也变得日益碎片化：纳入“智能体记忆” 阅读全文

posted @ 2026-01-03 22:30 一介布衣、阅读(1199) 评论(0) 推荐(0)

2025年10月28日

【综述】大语言模型智能体的评估与基准测试

摘要： https://arxiv.org/abs/2507.21504 摘要基于大型语言模型（LLM）的代理（Agent）的兴起为人工智能（AI）应用开辟了新的前沿，但对这些代理的评估仍然是一个复杂且尚不成熟的领域。本综述深入概述了 LLM 代理评估这一新兴领域，并引入了一个二维分类法，该分类法从以下两阅读全文

posted @ 2025-10-28 15:34 一介布衣、阅读(646) 评论(0) 推荐(0)

Robobench：一个全面评估多模态大语言模型作为具身智能的基准

摘要： https://arxiv.org/abs/2510.17801 摘要构建能够在动态、非结构化环境中感知、推理和行动的机器人仍然是一个核心挑战。近期的具身系统通常采用双系统范式，其中系统2（System 2）处理高层推理，而系统1（System 1）执行底层控制。在这项工作中，我们将系统2称为 “ 阅读全文

posted @ 2025-10-28 10:45 一介布衣、阅读(267) 评论(0) 推荐(0)

2025年10月3日

【Anthropic好文】AI 代理的高效上下文工程

摘要： AI 代理的高效上下文工程来源：https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents 获取时间：2025-10-02 14:57:58 UTC 在应用型 AI 领域经历了几年以提示工程为关阅读全文

posted @ 2025-10-03 09:18 一介布衣、阅读(314) 评论(0) 推荐(0)

2025年9月30日

M3-Agent：看见、听见、记住与推理：具备长期记忆的多模态智能体

摘要： https://arxiv.org/abs/2508.09736 https://github.com/bytedance-seed/m3-agent 摘要我们提出了 M3-Agent，这是一种新颖的多模态智能体框架，具备长期记忆能力。类似于人类， M3-Agent能够处理实时的视觉和听觉输入，并阅读全文

posted @ 2025-09-30 16:49 一介布衣、阅读(353) 评论(0) 推荐(0)

公告