摘要: 一、环境是否稳态 1、单智能体强化学习的环境是稳态的,即状态迁移是随机的,随机分布是不变的 2、多智能体强化学习,环境中包含有不断学习和更新的其他智能体,环境是非稳态的,环境迁移的分布会变化 3、多智能体强化学习如果使用单智能体的算法,经常不收敛 4、不但要跟环境交互,还要跟其他智能体交互 二、序贯 阅读全文
posted @ 2025-09-28 15:09 牧云文仔 阅读(20) 评论(0) 推荐(0)
摘要: 一、非线性规划(Nonlinear Programming,NLP) 1、线性规划LP:运筹学中,对于资源分配、计划调度等问题,有数学公式可以求解,数学公式的目标函数与所有约束条件均为线性 2、非线性函数:二次函数、指数函数、三角函数等 3、非线性规划NLP,研究目标函数或者约束条件,至少有一个为非 阅读全文
posted @ 2025-09-28 11:49 牧云文仔 阅读(16) 评论(0) 推荐(0)