摘要:
GuardAgent 核心要点及机制解析 https://arxiv.org/pdf/2406.09187 一、提出背景与设计目的 安全挑战:随着大型语言模型(LLM)代理广泛应用,安全问题日益突出。以医疗为例,LLM代理若被滥用,易泄露患者机密信息。 传统局限:现有LLM防护主要针对文本输出,常采 阅读全文
posted @ 2025-07-09 20:27
bonelee
阅读(40)
评论(0)
推荐(0)
摘要:
https://arxiv.org/pdf/2309.15817 ToolEmu 框架要点总结与应用案例 一、核心问题与设计目标 风险识别挑战:LM代理的风险识别通常需要手动实现工具、搭建环境和搜集风险案例。随着工具和代理复杂度提升,测试成本激增,长尾高风险案例难以被发现。 ToolEmu 目标:引 阅读全文
posted @ 2025-07-09 19:54
bonelee
阅读(48)
评论(0)
推荐(0)
摘要:
AgentSpec 技术概述与应用案例 https://arxiv.org/pdf/2503.18666 一、AgentSpec 概览 AgentSpec是一种轻量级领域特定语言(DSL),旨在为大型语言模型(LLM)代理提供运行时的定制化约束执行,从而提升其安全性、可靠性及伦理合规性。 二、核心特 阅读全文
posted @ 2025-07-09 18:03
bonelee
阅读(44)
评论(0)
推荐(0)
摘要:
核心要点 (Key Points) 研究表明,AI智能体安全至关重要,因为这些系统可能遭受数据泄露和未授权操作等攻击。 保护AI智能体似乎涉及多种技术,如提示词加固(Prompt Hardening)、工具净化(Tool Sanitization)和持续评估(Continuous Evaluatio 阅读全文
posted @ 2025-07-09 16:25
bonelee
阅读(194)
评论(0)
推荐(0)
摘要:
Technical Blog: Strengthening AI Agent Hijacking Evaluations Authored by the U.S. AI Safety Institute Technical Staff January 17, 2025 https://www.nis 阅读全文
posted @ 2025-07-09 16:11
bonelee
阅读(79)
评论(0)
推荐(0)

浙公网安备 33010602011771号