博弈论的数学语言 - 教程

核心数学符号的分类整理,结合基础定义与示例说明其应用:就是在博弈论中,存在一套标准化的数学符号体系,用于精准定义博弈要素(参与者、策略、收益等)、描述博弈过程及求解均衡(如纳什均衡)。以下

一、基础要素符号(定义博弈“构成”)

符号含义与定义示例与说明
NNN参与者集合(Player Set),通常用N={1,2,…,n}N = \{1,2,\dots,n\}N={1,2,,n}表示nnn个参与者。若为“两人零和博弈”(如石头剪刀布),则N={1,2}N = \{1,2\}N={1,2},代表参与者1和参与者2。
i∈Ni \in NiN单个参与者(第iii个参与者),用于聚焦某一决策主体的策略与收益。分析“参与者1的最优策略”时,用i=1i=1i=1明确研究对象。
SiS_iSi参与者iii纯策略集合(Pure Strategy Set),包含该参与者所有可选的纯策略。若参与者1在博弈中有“合作”和“背叛”两种选择,则S1={合作,背叛}S_1 = \{\text{合作},\text{背叛}\}S1={合作,背叛}
si∈Sis_i \in S_isiSi参与者iii一个纯策略(某一具体选择)。s1=背叛s_1 = \text{背叛}s1=背叛,表示参与者1选择“背叛”策略。
S=∏i∈NSiS = \prod_{i \in N} S_iS=iNSi博弈的纯策略组合集合(Strategy Profile Set),即所有参与者策略的笛卡尔积,包含所有可能的策略组合。N={1,2}N=\{1,2\}N={1,2}S1={合作,背叛}S_1=\{\text{合作},\text{背叛}\}S1={合作,背叛}S2={合作,背叛}S_2=\{\text{合作},\text{背叛}\}S2={合作,背叛},则S={(合作,合作),(合作,背叛),(背叛,合作),(背叛,背叛)}S = \{(\text{合作},\text{合作}), (\text{合作},\text{背叛}), (\text{背叛},\text{合作}), (\text{背叛},\text{背叛})\}S={(合作,合作),(合作,背叛),(背叛,合作),(背叛,背叛)}
s=(s1,s2,…,sn)∈Ss = (s_1, s_2, \dots, s_n) \in Ss=(s1,s2,,sn)S一个纯策略组合(某一具体的全局策略选择),其中sis_isi是参与者iii在该组合中的策略。s=(背叛,合作)s = (\text{背叛},\text{合作})s=(背叛,合作)表示“参与者1选背叛,参与者2选合作”。
s−is_{-i}si除参与者iii外所有其他参与者的策略组合,用于固定他人策略、分析iii的单独决策。s=(s1,s2,s3)s = (s_1, s_2, s_3)s=(s1,s2,s3),则s−2=(s1,s3)s_{-2} = (s_1, s_3)s2=(s1,s3)(固定参与者1和3的策略,聚焦参与者2的选择)。
ui:S→Ru_i: S \to \mathbb{R}ui:SR参与者iii收益函数(Payoff Function),输入为策略组合sss,输出为该组合下参与者iii的收益(实数)。在“囚徒困境”中,若s=(背叛,背叛)s=(\text{背叛},\text{背叛})s=(背叛,背叛),则u1(s)=u2(s)=−5u_1(s) = u_2(s) = -5u1(s)=u2(s)=5(假设收益为“刑期的负数”,-5代表被判5年)。

二、混合策略与概率符号(扩展策略空间)

当参与者不选择“确定的纯策略”,而是以概率分布随机选择策略时,需引入混合策略符号:

符号含义与定义示例与说明
Δ(Si)\Delta(S_i)Δ(Si)参与者iii混合策略集合,即纯策略集合SiS_iSi上的所有概率分布(概率向量)。S1={s11,s12}S_1 = \{s_{11}, s_{12}\}S1={s11,s12}(两个纯策略),则Δ(S1)={(σ1,1−σ1)∣0≤σ1≤1}\Delta(S_1) = \{ (\sigma_1, 1-\sigma_1) \mid 0 \leq \sigma_1 \leq 1 \}Δ(S1)={(σ1,1σ1)0σ11},其中σ1\sigma_1σ1是选择s11s_{11}s11的概率,1−σ11-\sigma_11σ1是选择s12s_{12}s12的概率。
σi∈Δ(Si)\sigma_i \in \Delta(S_i)σiΔ(Si)参与者iii一个混合策略(概率分布),σi(si)\sigma_i(s_i)σi(si)表示参与者iii选择纯策略sis_isi的概率。σ1=(0.6,0.4)\sigma_1 = (0.6, 0.4)σ1=(0.6,0.4),表示参与者1以60%概率选s11s_{11}s11,40%概率选s12s_{12}s12
σ=(σ1,…,σn)∈∏i∈NΔ(Si)\sigma = (\sigma_1, \dots, \sigma_n) \in \prod_{i \in N} \Delta(S_i)σ=(σ1,,σn)iNΔ(Si)博弈的混合策略组合σ1=(0.6,0.4)\sigma_1=(0.6,0.4)σ1=(0.6,0.4)σ2=(0.3,0.7)\sigma_2=(0.3,0.7)σ2=(0.3,0.7),则σ=(σ1,σ2)\sigma = (\sigma_1, \sigma_2)σ=(σ1,σ2)是两人博弈的混合策略组合。
Ui(σ)U_i(\sigma)Ui(σ)参与者iii在混合策略组合σ\sigmaσ下的期望收益(Expected Payoff),即所有纯策略组合收益的概率加权和。S={s1,s2,s3,s4}S = \{s_1,s_2,s_3,s_4\}S={s1,s2,s3,s4},则Ui(σ)=∑s∈S(∏j∈Nσj(sj))⋅ui(s)U_i(\sigma) = \sum_{s \in S} \left( \prod_{j \in N} \sigma_j(s_j) \right) \cdot u_i(s)Ui(σ)=sS(jNσj(sj))ui(s),其中∏j∈Nσj(sj)\prod_{j \in N} \sigma_j(s_j)jNσj(sj)是策略组合sss发生的概率。

三、均衡与解概念符号(描述博弈“最优结果”)

博弈论的核心是求解“均衡”(如纳什均衡),需用符号严格定义均衡条件:

符号与定义含义与应用场景
纯策略纳什均衡(Pure Strategy Nash Equilibrium)
若对所有i∈Ni \in NiN,对所有si′∈Sis_i' \in S_isiSi,都有:
ui(si,s−i)≥ui(si′,s−i)u_i(s_i, s_{-i}) \geq u_i(s_i', s_{-i})ui(si,si)ui(si,si)
则称s=(s1,…,sn)s = (s_1, \dots, s_n)s=(s1,,sn)是纯策略纳什均衡。
含义:在均衡策略组合sss中,没有参与者能借助单方面改变自己的纯策略来提高自身收益
应用:如“囚徒困境”中的(背叛,背叛)(\text{背叛},\text{背叛})(背叛,背叛),满足u1(背叛,背叛)≥u1(合作,背叛)u_1(\text{背叛},\text{背叛}) \geq u_1(\text{合作},\text{背叛})u1(背叛,背叛)u1(合作,背叛)u2(背叛,背叛)≥u2(背叛,合作)u_2(\text{背叛},\text{背叛}) \geq u_2(\text{背叛},\text{合作})u2(背叛,背叛)u2(背叛,合作)
混合策略纳什均衡(Mixed Strategy Nash Equilibrium)
若对所有i∈Ni \in NiN,对所有si′∈Sis_i' \in S_isiSi,都有:
Ui(σi,σ−i)≥Ui(si′,σ−i)U_i(\sigma_i, \sigma_{-i}) \geq U_i(s_i', \sigma_{-i})Ui(σi,σi)Ui(si,σi)
则称σ=(σ1,…,σn)\sigma = (\sigma_1, \dots, \sigma_n)σ=(σ1,,σn)是混合策略纳什均衡。
含义:在均衡混合策略组合σ\sigmaσ中,没有参与者能经过单方面改变自己的混合策略(或切换到某一纯策略)来提高自身期望收益
应用:如“石头剪刀布”的均衡,参与者均以(1/3,1/3,1/3)(1/3,1/3,1/3)(1/3,1/3,1/3)的概率选择三种策略,此时任何单方面改变概率的行为都不会提高期望收益(期望收益始终为0)。
子博弈完美纳什均衡(Subgame Perfect Nash Equilibrium, SPNE)
(需结合扩展式博弈的“子博弈”定义,符号上常用“在所有子博弈中满足纳什均衡”描述)
含义:排除“不可信威胁”的纳什均衡,要求均衡策略在每一个子博弈中都构成纳什均衡。
应用:如“连锁店博弈”“动态议价博弈”,需用逆向归纳法求解,符号上通过“子博弈的策略组合满足均衡条件”来定义。

四、符号体系的核心作用

  1. 精准性:避免自然语言的歧义(如“策略”在符号中明确分为SiS_iSi(集合)、sis_isi(单个策略)、sss(策略组合));
  2. 通用性:无论博弈类型(静态/动态、单人/多人、零和/非零和),均可通过这套符号统一描述;
  3. 可计算性:基于符号定义的收益函数uiu_iui、期望收益UiU_iUi,可通过数学工具(如优化、线性代数)求解均衡(如混合策略纳什均衡可依据“对手策略使自身各纯策略期望收益相等”列方程求解)。

例如,在之前的“格子擦除”单人博弈中,若用符号描述:

  • 参与者N={1}N = \{1\}N={1}(仅一个决策者);
  • 每个黑色格子的策略集S1={s擦除,s不擦除}S_1 = \{s_{\text{擦除}}, s_{\text{不擦除}}\}S1={s擦除,s不擦除}
  • 收益函数u1(s)=−操作次数u_1(s) = -\text{操作次数}u1(s)=操作次数(负号将“最小化执行次数”转化为“最大化收益”,符合博弈论常规设定);
  • 纳什均衡即满足max⁡s∈Su1(s)\max_{s \in S} u_1(s)maxsSu1(s)的策略组合s∗s^*s,对应“最小执行次数”的最优策略。
posted @ 2025-10-24 17:46  ycfenxi  阅读(1)  评论(0)    收藏  举报