摘要: 一、概念 1、GNN是处理图结构数据的深度学习模型,核心是通过图卷积、注意力机制等操作,让节点学习自身与邻居的关联信息,最终输出节点 / 图的特征或预测结果 2、传统深度学习(CNN、RNN)擅长处理网格数据(如图片)、序列数据(如文本) 3、GNN 专门解决 “图” 这种非结构化数据(节点、边) 阅读全文
posted @ 2025-11-01 16:51 牧云文仔 阅读(1) 评论(0) 推荐(0)
摘要: 一、问题定义 多车轨迹规划的核心是在满足约束的前提下,通过优化目标函数实现高效协同 二、目标函数,即优化方向 1、效率优先:总行驶时间最短、总行驶距离最短、平均车速最高 2、安全第一:车辆间最小距离最大化、避免碰撞的冗余时间最长 3、能耗经济:燃油 / 电能消耗最低、加速减速频次最少(减少能耗浪费) 阅读全文
posted @ 2025-11-01 16:18 牧云文仔 阅读(2) 评论(0) 推荐(0)
摘要: 一、概念 1、MADQN(Multi-Agent Deep Q-Network)多智能体强化学习算法 2、主要解决分布式系统中的资源分配、任务调度等复杂问题 阅读全文
posted @ 2025-09-30 18:29 牧云文仔 阅读(10) 评论(0) 推荐(0)
摘要: 一、概念 1、MADDPG(Multi-Agent Deep Deterministic Policy Gradient)是一种基于单智能体的DDPG算法扩展,解决多智能体交互场景下的训练不稳定性、环境非平稳性问题,于2017年提出 2、适用于合作、竞争或者混合互动的多智能体任务,例如机器人协作、多 阅读全文
posted @ 2025-09-30 18:06 牧云文仔 阅读(25) 评论(0) 推荐(0)
摘要: 一、环境是否稳态 1、单智能体强化学习的环境是稳态的,即状态迁移是随机的,随机分布是不变的 2、多智能体强化学习,环境中包含有不断学习和更新的其他智能体,环境是非稳态的,环境迁移的分布会变化 3、多智能体强化学习如果使用单智能体的算法,经常不收敛 4、不但要跟环境交互,还要跟其他智能体交互 二、序贯 阅读全文
posted @ 2025-09-28 15:09 牧云文仔 阅读(20) 评论(0) 推荐(0)
摘要: 一、非线性规划(Nonlinear Programming,NLP) 1、线性规划LP:运筹学中,对于资源分配、计划调度等问题,有数学公式可以求解,数学公式的目标函数与所有约束条件均为线性 2、非线性函数:二次函数、指数函数、三角函数等 3、非线性规划NLP,研究目标函数或者约束条件,至少有一个为非 阅读全文
posted @ 2025-09-28 11:49 牧云文仔 阅读(16) 评论(0) 推荐(0)
摘要: 一、概念 1、很多情况下,环境没有明确的奖励,例如聊天,自动驾驶的操作,无法明确定义好坏 2、不知道该怎么定义奖励时,可以收集专家示范 3、模仿学习(imitation learning,IL):智能体通过专家示范来学习,环境没有奖励给智能体 二、行为克隆 1、类似于监督学习,专家做什么,智能体就做 阅读全文
posted @ 2025-09-15 11:46 牧云文仔 阅读(59) 评论(0) 推荐(0)
摘要: 一、概念 1、实际环境中,用强化学习训练智能体,多数时候智能体不能得到奖励,即奖励很稀疏(稀少) 2、例如人在大部分时候,是不会得到奖励或者惩罚的,只是普通的生活 3、在得不到奖励的情况下,训练智能体是很困难的,智能体什么都学不到 二、解决方法 1、设计奖励:虽然环境没有给智能体奖励,但可以人为给智 阅读全文
posted @ 2025-09-15 11:16 牧云文仔 阅读(56) 评论(0) 推荐(0)
摘要: 一、介绍 1、两个模型:MCTS树结构,神经网络 阅读全文
posted @ 2025-08-26 17:55 牧云文仔 阅读(6) 评论(0) 推荐(0)
摘要: 一、基于模拟的搜索 1、模拟:基于强化学习模型,进行采样,得到样本数据 2、搜索:利用模拟的样本数据,计算采取什么动作 3、非模拟的前向搜索,状态动作数量多,就会导致动作的选择特别慢,不实用 4、MCTS适合状态、动作是海量数据的强化学习 二、简单蒙特卡洛搜索 1、可以处理中等规模的问题,比前向搜索 阅读全文
posted @ 2025-08-26 17:54 牧云文仔 阅读(20) 评论(0) 推荐(0)