摘要: 论文链接 机构:Improbable AI Lab+MIT 日期:25.09 insight 这篇论文的核心问题是:基础模型(如大语言模型或机器人策略)在微调以适应新任务时,常常出现灾难性遗忘(catastrophic forgetting),即学习新知识会损害先前掌握的能力。论文通过对比监督微调( 阅读全文
posted @ 2025-12-09 15:19 Brain404 阅读(13) 评论(0) 推荐(0)
摘要: 参考:动手学强化学习 1. 基本概念 强化学习是智能体通过与环境交互来实现目标的一种计算方法。 1.1 智能体 强化学习中的“智能体”强调机器不但可以感知周围的环境信息,还可以通过做决策来直接改变这个环境。 智能体的三个要素: 感知。智能体在某种程度上感知环境的状态,从而知道自己所处的现状。例如,下 阅读全文
posted @ 2025-12-09 13:20 Brain404 阅读(11) 评论(0) 推荐(0)