马尔可夫决策
马尔可夫决策:随机动态环境下序贯决策,其核心假设是 “马尔可夫性”—— 即 “未来状态的概率分布仅依赖于当前状态,与当前状态之前的历史无关”。MDP 的最终目标是找到一套最优策略 π(π: S→A,即 “在每个状态下选择哪个动作” 的规则)
马尔可夫决策可以表示成一个四元组,S(状态空间)、A(动作空间)、P(状态转移概率)、R(奖励函数)
- 零配件状态(8 种):S₁= 零配件 1、S₂= 零配件 2、…、S₈= 零配件 8(每个零配件为独立状态,需单独决策是否检测 / 装配);
- 半成品状态(3 种):S₉= 半成品 1、S₁₀= 半成品 2、S₁₁= 半成品 3(由不同零配件装配而成,需决策是否检测 / 销售 / 继续装配);
- 成品状态(1 种):S₁₂= 成品(由 3 个半成品装配而成,需决策是否检测 / 销售 / 拆解)。
动作空间 A 包含 5 种核心决策动作,覆盖生产全流程的关键选择,且不同状态下可执行的动作需符合生产逻辑(如 “拆解” 仅适用于成品,不适用于零配件):
| 动作 | 适用状态 | 动作含义 |
| 检测 |
所有零配件、半成品、成品 |
检查对象是否合格,剔除不合格品(需承担检测成本) |
| 不检测 |
所有零配件、半成品、成品 |
跳过检测直接进入下一环节(节省检测成本,但可能携带次品风险) |
| 装配 |
零配件→半成品、半成品→成品 |
将低阶对象组装为高阶对象(如 3 个零配件→1 个半成品,需承担装配成本) |
| 销售 |
半成品、成品 |
将合格对象推向市场(获得销售收入,若为次品需承担调换损失) |
| 拆解 |
成品(仅不合格成品) |
将不合格成品拆解为半成品 / 零配件,重复利用合格部件(需承担拆解成本,减少浪费) |
状态转移概率 P (s'|s,a) 表示 “在状态 s 下执行动作 a 后,转移到状态 s' 的概率”,论文结合 “次品率” 和 “装配规则” 量化这一概率,核心设定如下:
奖励函数 R (s,a) 是 MDP 的 “目标导向”,通过对 “状态 - 动作” 组合赋予正负值(正值 = 奖励,负值 = 惩罚),量化该决策的即时收益 / 成本,核心设计原则是 “收益 - 成本 = 净奖励”