模型三

这是一个非常棒的数据集状态！由于你提供的 processed_dwts_augmented.csv 已经包含了 placement（最终排名）、avg_score（评委技术分）、log_social_followers（社交影响力）和 ballroom_partner（职业舞伴）等关键信息。
这意味着我们不需要依赖复杂的贝叶斯估算（模型一），也可以直接通过“结果导向”的方式，建立一个“成功要素归因模型”。
这个模型的核心逻辑是：既然我们知道了结局（排名），那么到底是“跳得好（Score）”决定了排名，还是“粉丝多（Followers）”决定了排名？职业舞伴（Pro）在其中又起到了多大的“杠杆作用”？
以下是基于该数据集重新设计的模型三：多层线性混合效应归因模型 (LMM for Success Attribution)。

(1) 变量定义 (Variable Definition)
为了消除不同赛季参赛人数不同（有的赛季 12 人，有的 16 人）带来的排名偏差，我们需要先构建一个标准化的目标变量。
符号变量名称对应 CSV 列名类型单位约束范围场景意义与说明属性
\(i, j, t\) 索引 - 离散 - - 明星 \(i\)，职业舞伴 \(j\)，赛季 \(t\) 索引
\(Y_{i}\) 成功指数 (Success Index) placement (变换后) 连续 \([0, 1]\) \([0, 1]\) 目标变量。\(Y_i = 1 - \frac{\text{Placement}_i - 1}{N_t - 1}\)。

1=冠军，0=倒数第一。用于跨赛季比较。因变量
\(X_{Skill, i}\) 技术均分 avg_score (均值) 连续分 \([0, 30]\) 核心决策变量。代表选手的“硬实力”。需计算该选手全赛季的均分。固定效应
\(X_{Fame, i}\) 社交影响力 log_social_followers 连续 Log \([0, \infty)\) 核心决策变量。代表“软实力”/自带流量。固定效应
\(X_{Geo, i}\) 地缘红利 state_pop_millions 连续 Log \([0, \infty)\) 转化为 Log 形式，代表潜在的“家乡票仓”。固定效应
\(X_{Demo, i}\) 人口特征 age, industry 混合 - - 控制变量。年龄、性别、职业背景。固定效应
\(u_{j}\) 名师光环 (Pro Effect) ballroom_partner 连续 - \((-\infty, \infty)\) 随机效应。代表 Derek Hough 等明星舞伴带来的额外加成。待估参数
\(v_{t}\) 赛季基准 season 连续 - \((-\infty, \infty)\) 随机效应。控制不同赛季的竞争激烈程度差异。随机效应

(2) 假设条件 (Assumptions)
• 假设 1：排名的线性可加性 (Linear Additivity of Success)。
o 内容：假设“最终排名”是“技术分”和“人气值”的加权和。
o 依据：赛制规则明确指出结果由 50% 评委分 + 50% 粉丝票决定。尽管具体计算是非线性的（Rank/Percent），但在统计归因上，线性模型能很好地近似这种“混合贡献”。
o 影响：允许我们使用 LMM 形式 \(Y = \beta_1 X_1 + \beta_2 X_2 + \dots\) 进行系数解释。
• 假设 2：职业舞伴能力的恒定性 (Pro Capability Consistency)。
o 内容：假设同一个 Pro（如 Val Chmerkovskiy）在不同赛季中的教学能力和编舞水平是相对稳定的随机变量 \(u_j \sim N(0, \sigma_u^2)\)。
o 依据：职业选手的身体素质和专业技能不会在短期内剧烈波动。
o 影响：我们可以通过多赛季的数据，将 Pro 的能力从明星的表现中“剥离”出来，生成 Pro 实力排行榜。
• 假设 3：影响力边际递减 (Logarithmic Influence)。
o 内容：社交媒体粉丝数对排名的贡献服从对数律。
o 依据：从 CSV 数据看，粉丝数跨度极大（从 1k 到 100M）。1000万粉丝并不比 500万粉丝带来双倍的投票（边际效应递减，且有投票上限）。
o 影响：必须使用 log_social_followers 而非原始数值，防止长尾数据扭曲模型。

(3) 公式推导 (Formula Derivation)
我们的目标是建立方程：成功 = 努力(分) + 天赋(粉) + 名师(Pro) + 运气。
步骤 1：目标变量标准化 (Target Normalization)
由于 placement 是整数且依赖于参赛人数 \(N_t\)，直接回归会导致偏差。定义标准化成功指数 \(Y_{i}\)：

\[Y_{i} = 1 - \frac{P_{i} - 1}{N_{season(i)} - 1} \]

• 物理意义：将排名映射到 [0, 1] 区间。冠军 \(P_i=1 \rightarrow Y_i=1\)；垫底 \(P_i=N_t \rightarrow Y_i=0\)。
步骤 2：构建混合效应主方程 (The LMM Equation)
我们将数据分为固定效应 (Fixed Effects) 和随机效应 (Random Effects)。

\[Y_{i} = \underbrace{\beta_0 + \beta_1 \cdot \overline{Score}_i + \beta_2 \cdot \text{LogIns}_i + \beta_3 \cdot \text{LogPop}_i + \mathbf{\beta}_{ctrl} \mathbf{X}_{demo}}_{\text{可观测的实力与流量 (Observed Drivers)}} + \underbrace{u_{Partner(i)} + v_{Season(i)}}_{\text{不可观测的结构化偏差 (Unobserved Structure)}} + \epsilon_{i} \]

• \(\overline{Score}_i\)：选手 \(i\) 在 CSV 中所有 avg_score 的均值。
• \(u_{Partner(i)}\)：职业舞伴 \(j\) 的随机截距。
步骤 3：方差分解与 ICC (Variance Decomposition)
为了回答“Pro 到底有多重要”，我们利用方差分量：

\[\text{Total Variance} = \sigma_{fixed}^2 + \sigma_u^2 + \sigma_v^2 + \sigma_\epsilon^2 \]

计算 Pro 的决定系数 (ICC - Intraclass Correlation Coefficient)：

\[ICC_{Pro} = \frac{\sigma_u^2}{\sigma_u^2 + \sigma_v^2 + \sigma_\epsilon^2} \]

• 逻辑含义：该指标量化了在剔除明星自身水平（技术+流量）后，“舞伴是谁” 这一因素解释了剩余排名差异的百分比。如果 \(ICC > 0.15\)，说明舞伴作用极显著。
步骤 4：技术-流量汇率计算 (The Skill-Fame Exchange Rate)
通过比较回归系数 \(\beta_1\) 和 \(\beta_2\)，我们可以计算“汇率”：

\[\text{Exchange Rate} = \frac{\beta_1}{\beta_2} \]

• 物理意义：代表 “评委少给 1 分，需要多少 Log 粉丝量才能补回来”。这直接回答了 Data With The Stars 到底是技术赛还是人气赛。

(4) 建模流程图 (Modeling Flowchart)
[阶段一：特征聚合 (Data Aggregation)]
输入： processed_dwts_augmented.csv
\(\rightarrow\) 聚合操作：按 celebrity_name 和 season 分组 (Group By)。
• 计算 avg_score 的均值 \(\rightarrow\) mean_score
• 保留 placement，log_social_followers，state_pop，ballroom_partner
\(\rightarrow\) 目标变换：计算 \(Y_i\) (Success Index)。
[阶段二：多层模型求解 (REML Estimation)]
模型设定：使用 lme4 (R) 或 statsmodels (Python) 库。
• Formula: Success_Index ~ mean_score + log_social + log_pop + Age + (1|Partner) + (1|Season)
\(\rightarrow\) 参数估计：使用限制最大似然法 (REML) 迭代求解 \(\beta\) 和 \(\sigma^2\)。
[阶段三：核心参数解译 (Interpretation)]
显著性检验：查看 log_social_followers 的 P 值。
• 若 P < 0.05：证明“流量为王”假说成立。
系数对比：
• 若 \(\beta_{Score} = 0.08, \beta_{Social} = 0.02\)。说明 1 分技术分 \(\approx\) 4 个单位的 Log 粉丝（约 \(e^4 \approx 50\)倍粉丝差异）。
Pro 排名输出：提取随机效应值 \(\hat{u}_j\) (BLUPs)。
• 生成 "True Coach Value Ranking"。正值最高的 Pro 是真正的“造星大师”。
[阶段四：场景验证 (Validation)]
残差分析：检查 \(\epsilon_i\) 较大的样本（Outliers）。
• 例如：如果某选手排名很高，但模型预测很低（残差大），说明他可能既没技术也没粉丝，可能有其他因素（如 CP 炒作、政治正确等）。
敏感性测试：移除 log_social 变量，观察 AIC/BIC 变化，证明引入社交数据的必要性。

💡 为什么这个设计适合你的数据集？

充分利用了 placement：你的 CSV 里有明确的排名，这是最硬的指标。直接预测排名比预测中间变量（得票率）更有说服力。
解决了 state_pop 和 social 的用途：它们被作为固定效应放入模型，直接与其他变量（如技术分）竞争解释权。
Pro 的价值量化：通过 LMM 的随机效应，你可以给每一位 Pro 打分。这是一个非常酷的“附加产出”，可以直接作为给节目组的建议（“应该多聘请 Derek 这样的舞伴”）。

posted @ 2026-01-30 13:54 Morphis‘ 阅读(9) 评论(0) 收藏举报

刷新页面返回顶部

Morphis

模型三

公告