结合MORL与约束螺栓学习规范行为
IJCAI2025杰出论文:结合MORL与约束螺栓学习规范行为
图片由作者提供 - 使用Gemini生成
对许多人来说,人工智能已成为日常生活的一部分,我们将原本由人类承担的角色分配给AI系统的速度丝毫没有放缓的迹象。AI系统是许多技术的关键组成部分——例如自动驾驶汽车、智能城市规划、数字助手——覆盖领域日益扩大。这些技术的核心是自主智能体,这些系统代表人类行动,在没有直接监督的情况下做出决策。
为了在现实世界中有效行动,这些智能体必须能够在可能不可预测的环境条件下执行广泛任务,这通常需要某种形式的机器学习来实现自适应行为。
强化学习作为一种强大的机器学习技术,在训练智能体在随机环境中实现最优行为方面表现突出。RL智能体通过与环境互动进行学习:它们采取的每个行动都会获得特定情境的奖励或惩罚。随着时间的推移,它们学会了在整个运行期间最大化预期奖励的行为。
图片由作者提供 - 使用Gemini生成
RL智能体可以掌握各种复杂任务,从赢得视频游戏到控制自动驾驶汽车等网络物理系统,通常超越人类专家的能力。然而,如果完全不受约束,这种最优、高效的行为可能会让受影响的人类感到不适甚至危险。这推动了安全RL领域的大量研究工作,开发专门技术确保RL智能体满足特定安全要求。这些要求通常用线性时序逻辑等形式语言表达,LTL扩展了经典逻辑,增加了时序运算符,使我们能够指定"必须始终保持的条件"或"必须最终发生的事件"等条件。
然而,安全并非一切。实际上,随着基于RL的智能体越来越多地被赋予替代人类或与人类密切互动的角色,新的挑战出现了:确保它们的行为也符合构建人类社会的社会、法律和伦理规范,这些规范通常超出了保证安全的简单约束。例如,自动驾驶汽车可能完美遵循安全约束,但仍可能采取技术上安全但违反社会规范的行为,在道路上显得怪异或粗鲁,这可能导致其他人类驾驶员以不安全的方式反应。
规范通常表达为义务、许可和禁止,这些不是像经典逻辑公式那样可以为真或假的陈述。相反,它们是道义概念:描述什么是正确、错误或许可的——理想或可接受的行为,而不是实际发生的情况。这种细微差别给规范推理带来了几个困难的动态特性,许多逻辑难以处理。
虽然有安全RL方法显示出更多潜力。一个显著的例子是约束螺栓技术,该方法影响智能体的行动以符合指定规则,同时仍允许其追求目标。也就是说,约束螺栓修改RL智能体学习的行为,使其也尊重一组规范。这些用LTL变体表达的规范各自与其奖励配对。核心思想简单但强大:除了智能体在探索环境时获得的奖励外,每当其行动满足相应规范时,我们添加额外奖励,促使其以符合个体安全要求的方式行为。
然而,建模规范的问题仍然存在;例如,许多规范是条件性的。考虑义务"如果行人在人行横道上,THEN附近车辆必须停止"。如果智能体在每次满足此规则时都获得奖励,它也会在规范实际上不生效的情况下获得奖励。因此,我们引入了规范约束螺栓,这是朝着在RL智能体中强制执行规范迈出的一步。与通过提供额外奖励鼓励合规的原始约束螺栓不同,规范版本改为惩罚违反规范的行为。
我们的贡献
在NRBs的基础上,我们引入了有序规范约束螺栓,这是一个指导强化学习智能体遵守社会、法律和伦理规范的框架,同时解决了NRBs的局限性。在这种方法中,每个规范都被视为多目标强化学习问题中的一个目标。以这种方式重新表述问题使我们能够:
- 证明当规范不冲突时,学习最优行为的智能体将随时间最小化规范违反
- 用描述冲突发生时应优先考虑哪个规范的排名系统表达规范之间的关系
- 使用MORL技术算法确定我们分配惩罚的必要幅度,保证只要智能体学习最优行为,规范违反将尽可能少,优先考虑排名最高的规范
- 通过"停用"或"重新激活"特定规范来适应规范系统的变化
我们在受策略游戏启发的网格世界环境中测试了我们的框架,其中智能体学习收集资源并将其运送到指定区域。这种设置使我们能够演示框架处理上述复杂规范场景的能力,以及直接优先处理冲突规范和规范更新。
总之,通过将RL与逻辑相结合,我们可以构建不仅有效工作,而且正确工作的AI智能体。
这项研究获得了IJCAI 2025杰出论文奖。
致谢
本研究由某中心科学技术基金项目ICT22-023和某机构科学基金10.55776/COE12卓越集群双边AI资助。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码

公众号二维码


浙公网安备 33010602011771号