模型三
这是一个非常棒的数据集状态!由于你提供的 processed_dwts_augmented.csv 已经包含了 placement(最终排名)、avg_score(评委技术分)、log_social_followers(社交影响力)和 ballroom_partner(职业舞伴)等关键信息。
这意味着我们不需要依赖复杂的贝叶斯估算(模型一),也可以直接通过“结果导向”的方式,建立一个“成功要素归因模型”。
这个模型的核心逻辑是:既然我们知道了结局(排名),那么到底是“跳得好(Score)”决定了排名,还是“粉丝多(Followers)”决定了排名?职业舞伴(Pro)在其中又起到了多大的“杠杆作用”?
以下是基于该数据集重新设计的 模型三:多层线性混合效应归因模型 (LMM for Success Attribution)。
(1) 变量定义 (Variable Definition)
为了消除不同赛季参赛人数不同(有的赛季 12 人,有的 16 人)带来的排名偏差,我们需要先构建一个标准化的目标变量。
符号 变量名称 对应 CSV 列名 类型 单位 约束范围 场景意义与说明 属性
\(i, j, t\) 索引 - 离散 - - 明星 \(i\),职业舞伴 \(j\),赛季 \(t\) 索引
\(Y_{i}\) 成功指数 (Success Index) placement (变换后) 连续 \([0, 1]\) \([0, 1]\) 目标变量。\(Y_i = 1 - \frac{\text{Placement}_i - 1}{N_t - 1}\)。
1=冠军,0=倒数第一。用于跨赛季比较。 因变量
\(X_{Skill, i}\) 技术均分 avg_score (均值) 连续 分 \([0, 30]\) 核心决策变量。代表选手的“硬实力”。需计算该选手全赛季的均分。 固定效应
\(X_{Fame, i}\) 社交影响力 log_social_followers 连续 Log \([0, \infty)\) 核心决策变量。代表“软实力”/自带流量。 固定效应
\(X_{Geo, i}\) 地缘红利 state_pop_millions 连续 Log \([0, \infty)\) 转化为 Log 形式,代表潜在的“家乡票仓”。 固定效应
\(X_{Demo, i}\) 人口特征 age, industry 混合 - - 控制变量。年龄、性别、职业背景。 固定效应
\(u_{j}\) 名师光环 (Pro Effect) ballroom_partner 连续 - \((-\infty, \infty)\) 随机效应。代表 Derek Hough 等明星舞伴带来的额外加成。 待估参数
\(v_{t}\) 赛季基准 season 连续 - \((-\infty, \infty)\) 随机效应。控制不同赛季的竞争激烈程度差异。 随机效应
(2) 假设条件 (Assumptions)
• 假设 1:排名的线性可加性 (Linear Additivity of Success)。
o 内容: 假设“最终排名”是“技术分”和“人气值”的加权和。
o 依据: 赛制规则明确指出结果由 50% 评委分 + 50% 粉丝票决定。尽管具体计算是非线性的(Rank/Percent),但在统计归因上,线性模型能很好地近似这种“混合贡献”。
o 影响: 允许我们使用 LMM 形式 \(Y = \beta_1 X_1 + \beta_2 X_2 + \dots\) 进行系数解释。
• 假设 2:职业舞伴能力的恒定性 (Pro Capability Consistency)。
o 内容: 假设同一个 Pro(如 Val Chmerkovskiy)在不同赛季中的教学能力和编舞水平是相对稳定的随机变量 \(u_j \sim N(0, \sigma_u^2)\)。
o 依据: 职业选手的身体素质和专业技能不会在短期内剧烈波动。
o 影响: 我们可以通过多赛季的数据,将 Pro 的能力从明星的表现中“剥离”出来,生成 Pro 实力排行榜。
• 假设 3:影响力边际递减 (Logarithmic Influence)。
o 内容: 社交媒体粉丝数对排名的贡献服从对数律。
o 依据: 从 CSV 数据看,粉丝数跨度极大(从 1k 到 100M)。1000万粉丝并不比 500万粉丝带来双倍的投票(边际效应递减,且有投票上限)。
o 影响: 必须使用 log_social_followers 而非原始数值,防止长尾数据扭曲模型。
(3) 公式推导 (Formula Derivation)
我们的目标是建立方程:成功 = 努力(分) + 天赋(粉) + 名师(Pro) + 运气。
步骤 1:目标变量标准化 (Target Normalization)
由于 placement 是整数且依赖于参赛人数 \(N_t\),直接回归会导致偏差。定义标准化成功指数 \(Y_{i}\):
• 物理意义: 将排名映射到 [0, 1] 区间。冠军 \(P_i=1 \rightarrow Y_i=1\);垫底 \(P_i=N_t \rightarrow Y_i=0\)。
步骤 2:构建混合效应主方程 (The LMM Equation)
我们将数据分为固定效应 (Fixed Effects) 和 随机效应 (Random Effects)。
• \(\overline{Score}_i\):选手 \(i\) 在 CSV 中所有 avg_score 的均值。
• \(u_{Partner(i)}\):职业舞伴 \(j\) 的随机截距。
步骤 3:方差分解与 ICC (Variance Decomposition)
为了回答“Pro 到底有多重要”,我们利用方差分量:
计算 Pro 的决定系数 (ICC - Intraclass Correlation Coefficient):
• 逻辑含义: 该指标量化了在剔除明星自身水平(技术+流量)后,“舞伴是谁” 这一因素解释了剩余排名差异的百分比。如果 \(ICC > 0.15\),说明舞伴作用极显著。
步骤 4:技术-流量汇率计算 (The Skill-Fame Exchange Rate)
通过比较回归系数 \(\beta_1\) 和 \(\beta_2\),我们可以计算“汇率”:
• 物理意义: 代表 “评委少给 1 分,需要多少 Log 粉丝量才能补回来”。这直接回答了 Data With The Stars 到底是技术赛还是人气赛。
(4) 建模流程图 (Modeling Flowchart)
[阶段一:特征聚合 (Data Aggregation)]
输入: processed_dwts_augmented.csv
\(\rightarrow\) 聚合操作: 按 celebrity_name 和 season 分组 (Group By)。
• 计算 avg_score 的均值 \(\rightarrow\) mean_score
• 保留 placement,log_social_followers,state_pop,ballroom_partner
\(\rightarrow\) 目标变换: 计算 \(Y_i\) (Success Index)。
[阶段二:多层模型求解 (REML Estimation)]
模型设定: 使用 lme4 (R) 或 statsmodels (Python) 库。
• Formula: Success_Index ~ mean_score + log_social + log_pop + Age + (1|Partner) + (1|Season)
\(\rightarrow\) 参数估计: 使用 限制最大似然法 (REML) 迭代求解 \(\beta\) 和 \(\sigma^2\)。
[阶段三:核心参数解译 (Interpretation)]
显著性检验: 查看 log_social_followers 的 P 值。
• 若 P < 0.05: 证明“流量为王”假说成立。
系数对比:
• 若 \(\beta_{Score} = 0.08, \beta_{Social} = 0.02\)。说明 1 分技术分 \(\approx\) 4 个单位的 Log 粉丝(约 \(e^4 \approx 50\)倍粉丝差异)。
Pro 排名输出: 提取随机效应值 \(\hat{u}_j\) (BLUPs)。
• 生成 "True Coach Value Ranking"。正值最高的 Pro 是真正的“造星大师”。
[阶段四:场景验证 (Validation)]
残差分析: 检查 \(\epsilon_i\) 较大的样本(Outliers)。
• 例如: 如果某选手排名很高,但模型预测很低(残差大),说明他可能既没技术也没粉丝,可能有其他因素(如 CP 炒作、政治正确等)。
敏感性测试: 移除 log_social 变量,观察 AIC/BIC 变化,证明引入社交数据的必要性。
💡 为什么这个设计适合你的数据集?
- 充分利用了 placement: 你的 CSV 里有明确的排名,这是最硬的指标。直接预测排名比预测中间变量(得票率)更有说服力。
- 解决了 state_pop 和 social 的用途: 它们被作为固定效应放入模型,直接与其他变量(如技术分)竞争解释权。
- Pro 的价值量化: 通过 LMM 的随机效应,你可以给每一位 Pro 打分。这是一个非常酷的“附加产出”,可以直接作为给节目组的建议(“应该多聘请 Derek 这样的舞伴”)。

浙公网安备 33010602011771号