马尔可夫决策

马尔可夫决策：随机动态环境下序贯决策，其核心假设是 “马尔可夫性”—— 即 “未来状态的概率分布仅依赖于当前状态，与当前状态之前的历史无关”。MDP 的最终目标是找到一套最优策略 π（π: S→A，即 “在每个状态下选择哪个动作” 的规则）

马尔可夫决策可以表示成一个四元组，S（状态空间）、A（动作空间）、P（状态转移概率）、R（奖励函数）

动作空间 A 包含 5 种核心决策动作，覆盖生产全流程的关键选择，且不同状态下可执行的动作需符合生产逻辑（如 “拆解” 仅适用于成品，不适用于零配件）：

动作	适用状态	动作含义
检测	所有零配件、半成品、成品	检查对象是否合格，剔除不合格品（需承担检测成本）
不检测	所有零配件、半成品、成品	跳过检测直接进入下一环节（节省检测成本，但可能携带次品风险）
装配	零配件→半成品、半成品→成品	将低阶对象组装为高阶对象（如 3 个零配件→1 个半成品，需承担装配成本）
销售	半成品、成品	将合格对象推向市场（获得销售收入，若为次品需承担调换损失）
拆解	成品（仅不合格成品）	将不合格成品拆解为半成品 / 零配件，重复利用合格部件（需承担拆解成本，减少浪费）

状态转移概率 P (s'|s,a) 表示 “在状态 s 下执行动作 a 后，转移到状态 s' 的概率”，论文结合 “次品率” 和 “装配规则” 量化这一概率，核心设定如下：

奖励函数 R (s,a) 是 MDP 的 “目标导向”，通过对 “状态 - 动作” 组合赋予正负值（正值 = 奖励，负值 = 惩罚），量化该决策的即时收益 / 成本，核心设计原则是 “收益 - 成本 = 净奖励”

马尔可夫决策MDP的求解：从 “策略评估” 到 “最优决策：求解马尔可夫决策使用模拟退火算法，因此，论文引入模拟退火算法，通过 “随机搜索 + 梯度降温”

马尔可夫决策提出是为了和动态规划对比

posted @ 2025-09-13 21:54 Annaprincess 阅读(11) 评论(0) 收藏举报

刷新页面返回顶部