摘要:
论文链接: https://arxiv.org/abs/2506.15253 这篇文档核心是介绍了一个叫 RAS-Eval 的“安全测评工具”,专门用来检测大语言模型代理(比如能帮你查日历、做财务咨询、操作数据库的AI助手)在真实场景下的安全漏洞,还通过实验证明了这个工具的有效性。 用大白话拆解重点 阅读全文
posted @ 2026-01-07 14:56
stardsd
阅读(16)
评论(0)
推荐(0)
摘要:
LLM Agents:从“会说话的模型”到“可行动的系统” 本文面向已有一定研究或工程基础的读者,尝试在 2024–2025 年最新工作的基础上,对 LLM+Agents 的研究版图进行系统综述,并给出我对未来方向的判断与建议。整体结构如下: 概念与范式转变:从 LLM 到 Agentic LLM 阅读全文
posted @ 2026-01-07 11:02
stardsd
阅读(57)
评论(0)
推荐(0)

浙公网安备 33010602011771号