模型一

这是一个非常专业且高难度的建模任务。针对 Q1(估算粉丝投票) 和 Q2(不确定性分析),我们将构建一个 “基于截断狄利克雷分布的贝叶斯 MCMC 逆向推断模型” (Bayesian Inverse Inference via MCMC with Truncated Dirichlet Priors)。
这个模型不仅能算出“一种可能的票数”,还能算出“所有可能票数的概率分布”,直接回应题目关于“不确定性 (Certainty)”的核心疑问,是极具竞争力的冲奖模型。
以下是完整的建模步骤解析:


  1. 变量定义 (Variable Definition)
    我们将粉丝投票建模为“比例”而非绝对票数(因为总票数未知且不影响比例制下的结果),利用统计学中的狄利克雷分布来描述这种“多选一”的概率结构。
    符号 变量名称 类型 单位 约束范围 场景意义与说明 属性
    \(i, t\) 选手索引,周次索引 离散 - \(i \in \{1..N_t\}\)\(t\) 周的第 \(i\) 位选手 索引
    \(J_{i,t}\) 评委原始得分 离散 分 \([0, 30/40]\) 题目给定数据 (Judge Points) 已知参数
    \(R^J_{i,t}\) 评委排名 离散 位 \(\{1..N_t\}\) 根据 \(J_{i,t}\) 排序,分数越高排名越小(1为最好) 中间变量
    \(\boldsymbol{\theta}_t\) 粉丝投票比例向量 连续 % \(\sum \theta_{i,t} = 1\) 核心决策变量 (待估参数)。即选手 \(i\) 获得粉丝票仓的比例。 目标变量
    \(R^F_{i,t}\) 粉丝排名 离散 位 \(\{1..N_t\}\) 根据 \(\boldsymbol{\theta}_t\) 排序,比例越高排名越小 中间变量
    \(E_{obs,t}\) 观测到的淘汰者ID 离散 ID - 历史数据中实际被淘汰的人 已知参数
    \(M_t\) 计分规则模式 0-1 - \(\{Rank, \%\}\) 指示当周是排名制还是百分比制 已知条件
    \(\mathbb{I}(\cdot)\) 规则一致性指示器 0-1 - \(\{0, 1\}\) 若模拟结果与 \(E_{obs,t}\) 一致则为1,否则为0 似然函数值
    \(\alpha\) 狄利克雷先验参数 连续 - \(>0\) 控制粉丝投票分布的稀疏度。\(\alpha<1\) 表示马太效应(票集中),\(\alpha=1\) 表示均匀。 假设参数

  1. 假设条件 (Assumptions)
    我们需要通过假设将复杂的社会学问题转化为可计算的数学问题。
    • 假设 1:粉丝投票比例服从狄利克雷分布 (Dirichlet Distribution)。
    o 依据: 每一周的总票仓是固定的(归一化为1),且投票是多项分布的连续形式。狄利克雷分布是单纯形(Simplex)上最自然的概率分布。
    o 对模型影响: 使得我们可以用参数 \(\boldsymbol{\alpha}\) 来控制对“明星人气差异”的先验认知。若无信息,设 \(\boldsymbol{\alpha}=(1,1...1)\) 为均匀分布。
    • 假设 2:评委分数与粉丝投票存在弱正相关性 (Weak Correlation Prior)。
    o 依据: 跳得好的选手通常也会获得更多观众认可,完全负相关极少见。
    o 对模型影响: 在构建先验分布时,不使用完全均匀分布,而是将先验中心稍稍偏向评委高分选手。这能加速 MCMC 收敛,避免在完全不可能的解空间(如满分选手得0票)浪费算力。
    • 假设 3:淘汰结果是确定性规则的产物 (Deterministic Rule Application)。
    o 依据: 忽略计票失误或内幕操作,假设题目给出的淘汰结果严格遵循数学规则。
    o 对模型影响: 似然函数 \(L(Data|\theta)\) 变为一个指示函数(Indicator Function),即解空间被严格切割为“可行域”和“不可行域”。

  1. 公式推导 (Formula Derivation)
    本模型的逻辑是:后验概率 \(\propto\) 似然函数 \(\times\) 先验概率。
    步骤 1:构建粉丝投票的先验分布 (Prior)
    我们假设第 \(t\) 周所有选手的得票比例向量 \(\boldsymbol{\theta}_t = [\theta_{1,t}, \dots, \theta_{N,t}]\) 服从狄利克雷分布:

\[P(\boldsymbol{\theta}_t | \boldsymbol{\alpha}) = \frac{1}{B(\boldsymbol{\alpha})} \prod_{i=1}^{N_t} \theta_{i,t}^{\alpha_i - 1} \]

其中 \(\sum \theta_{i,t} = 1\)\(\alpha_i\) 为先验强度参数。
步骤 2:构建“规则黑盒”与似然函数 (Likelihood)
我们需要一个函数来模拟 DWTS 的淘汰逻辑。定义总分计算函数 \(S(\cdot)\)
情形 A:Rank 排名制 (Seasons 1-2)

\[Score_{i,t}^{Rank} = R^J_{i,t}(J_{i,t}) + R^F_{i,t}(\theta_{i,t}) \]

淘汰规则:总排名数值最大者淘汰(若并列,通常查阅规则看分数低者,此处简化为集合):

\[E_{sim} = \arg \max_{i} (Score_{i,t}^{Rank}) \]

情形 B:Percent 百分比制 (Seasons 3-27)

\[Score_{i,t}^{\%} = \underbrace{\frac{J_{i,t}}{\sum_k J_{k,t}} \times 50}_{\text{Judge Part}} + \underbrace{\theta_{i,t} \times 50}_{\text{Fan Part}} \]

淘汰规则:总分最低者淘汰:

\[E_{sim} = \arg \min_{i} (Score_{i,t}^{\%}) \]

似然函数定义:
由于我们知道确切的淘汰结果 \(E_{obs}\),似然函数退化为示性函数:

\[L(E_{obs} | \boldsymbol{\theta}_t, J_t) = \begin{cases} 1, & \text{if } E_{sim}(\boldsymbol{\theta}_t, J_t) = E_{obs} \\ 0, & \text{otherwise} \end{cases} \]

注:这意味着只要模拟出来的淘汰者和历史一样,这个 \(\boldsymbol{\theta}_t\) 就是一个“可行解”。
步骤 3:贝叶斯后验概率 (Posterior)

\[P(\boldsymbol{\theta}_t | E_{obs}, J_t) \propto \mathbb{I}(E_{sim}(\boldsymbol{\theta}_t) = E_{obs}) \times \text{Dirichlet}(\boldsymbol{\theta}_t | \boldsymbol{\alpha}) \]

步骤 4:MCMC 采样算法 (Metropolis-Hastings)
由于后验分布被复杂的排序逻辑截断,无法写出解析解,我们使用 MH 算法进行采样:

  1. 初始化:随机生成一个满足 \(\sum \theta = 1\) 的向量 \(\boldsymbol{\theta}^{(0)}\)
  2. 提议 (Propose):在当前点 \(\boldsymbol{\theta}^{(k)}\) 附近添加扰动生成 \(\boldsymbol{\theta}^*\)(需重新归一化)。
  3. 验证 (Check):
    o 计算 \(E_{sim}(\boldsymbol{\theta}^*)\)
    o 若 \(E_{sim} \neq E_{obs}\)(模拟淘汰了错误的人),则接受概率 \(\alpha_{acc} = 0\)(直接拒绝)。
    o 若 \(E_{sim} = E_{obs}\)(符合历史),则根据先验密度比率计算接受概率 \(\alpha_{acc} = \min(1, \frac{P(\boldsymbol{\theta}^*)}{P(\boldsymbol{\theta}^{(k)})})\)
  4. 接受/拒绝:生成随机数 \(u \sim U(0,1)\),若 \(u < \alpha_{acc}\),则 \(\boldsymbol{\theta}^{(k+1)} = \boldsymbol{\theta}^*\),否则保持不变。
  5. 循环:重复 10,000 次,记录下的所有 \(\boldsymbol{\theta}\) 即为粉丝投票的近似分布。

基于您提供的 模型一结果图示.docx 文件内容,以及我们之前构建的贝叶斯 MCMC 模型逻辑,以下是针对模型一(贝叶斯逆向推断模型)的详细结论总结

这段总结是为您论文的 "Results & Discussion"(结果与讨论)"Conclusion"(结论) 章节准备的,语言风格已经调整为学术论文模式,侧重于从数据图表中提炼出深层的数学与社会学规律。


模型一结论总结:粉丝投票的微观重构与宏观演变

Summary of Findings for Model 1: Micro-Reconstruction and Macro-Evolution of Fan Votes

基于第19赛季(Season 19)的贝叶斯 MCMC 逆向推断实验,本模型成功从历史淘汰结果中反演出了隐变量“粉丝投票分布”。通过对微观(单周)与宏观(全赛季)数据的可视化分析,我们得出以下三个核心结论:

1. “输家确定性”定律 (The Law of Loser's Certainty)

image

  • 对应图表: 图表 1 (小提琴图/Violin Plot)
  • 核心发现: 我们发现模型对“淘汰者”和“晋级者”的估算确定性存在显著的非对称性 (Asymmetry)
  • 现象: 被淘汰者(如 Betsey Johnson)的后验分布呈现“窄峰”形态(方差极小),且集中在低值区间(0%-3%)。
  • 结论: 在百分比赛制下,一名选手被淘汰是“必然事件”而非“偶然事件”。数学上,只有当粉丝投票极低且无法弥补评委分差距时,淘汰才会发生。因此,模型对“谁是输家”具有极高的置信度
  • 反之: 晋级者的后验分布呈现“宽尾”形态。这意味着只要票数超过“安全阈值”,无论是获得 15% 还是 30% 的选票,结果都是“晋级”。这种“冗余票数” (Surplus Votes) 导致了模型对赢家具体得票率的估算具有较大的不确定性。

2. 票仓的“虹吸效应”与马太效应 (Vote Siphoning & The Matthew Effect)

image
image

  • 对应图表: 图表 3 (热力图/Heatmap) & 图表 4 (折线图/Trajectory Plot)
  • 核心发现: 粉丝投票并非单纯的随机游走,而是表现出强烈的时间惯性 (Temporal Inertia)资源再分配特征
  • 强者恒强: 最终冠军(Alfonso Ribeiro)的热力图色块从第一周起就维持深色。这证明了马太效应的存在——高人气选手往往自带稳固的基本盘,而非仅仅依靠比赛后期的爆发。
  • 票仓再分配: 随着比赛进行,总人数减少,幸存者的得票率曲线(图表4)呈普遍上升趋势。这揭示了“虹吸机制”:被淘汰选手的释放出的票仓份额,并非均匀流失,而是被留下的头部选手迅速瓜分(Absorbed)。未能有效“虹吸”被淘汰者票仓的选手,往往会在数周后随之被淘汰。

3. 模型的逻辑自洽性与预警能力 (Logical Consistency & Early Warning)

image

  • 对应图表: 图表 2 (堆叠柱状图/Stacked Bar) & 图表 3 (热力图的淡出)
  • 核心发现: 模型不仅在数学上自洽,还具备潜在的预测功能。

历史复现: 在所有测试周次中,模型合成的总分(评委分+估算粉丝分)均准确复现了历史淘汰结果(如图2中 Betsey Johnson 总分最低),证明了逆向推断逻辑的有效性 。

  • 淘汰预警: 在热力图中,淘汰者在离开的前一周,其颜色通常会经历从“中蓝”到“浅白”的突变。这表明“人气枯竭”先于“实际淘汰”发生。当选手的粉丝得票率跌破某一“生存临界点”时,即便评委给出高分也难以挽回颓势。

给论文写作的建议 (Text Suggestion for Paper)

您可以直接将以下段落翻译或润色后放入论文:

Conclusion on Uncertainty (Q2):
Our Bayesian analysis reveals a fundamental asymmetry in certainty. The model exhibits high confidence (narrow credible intervals) when estimating the votes of eliminated contestants, as their path to elimination is mathematically constrained to a small feasible region of low votes. Conversely, surviving contestants inhabit a larger feasible region, leading to higher uncertainty in their specific vote totals. This suggests that while we can definitively identify why a contestant lost, the magnitude of a winner's popularity remains partially obscured by the threshold-based nature of the competition.
Insight on Fan Dynamics:
The longitudinal analysis confirms the existence of a "Matthew Effect" in DWTS. Contestants like Alfonso Ribeiro (Season 19 Winner) established dominant fan bases early in the season [Figure 6]. Furthermore, the upward trajectory of survivors' vote shares [Figure 4] indicates a dynamic absorption process, where the voting share of eliminated contestants is redistributed to the remaining front-runners, intensifying the competition concentration as the finale approaches.

posted @ 2026-01-30 10:19  Morphis‘  阅读(58)  评论(0)    收藏  举报