Admixture群体结构分析:CV error(交叉验证误差 )曲线没明显谷底,该怎么办?

最近粉丝问到一个问题:我的admixture分析,cv error曲线没有明显谷底,如何选择K?

图片

这是一个非常常见的问题,初学者往往祈祷能出现完美的V型图,但从我做过的几十上百个群体遗传的项目来看,绝大部分项目都不会有这么完美的结果,CV曲线就是一路下滑。

这种情况通常意味着群体结构较连续、无明显亚群分化,或数据本身梯度变化(如地理渐变群)。那怎么办?

以下是一些选择策略和考虑因素:

核心原则:综合评估,避免单一指标

优先生物学意义

核心问题: 不同K值对应的群体划分是否符合已知的种群历史、地理分布或表型差异?
操作建议:

  • • 对比每个K值的祖先成分条状图(Bar plot),观察新增K时是否拆分出生物学合理的亚群(如新出现的地理隔离群体)。

  • • 若新增K仅将大群体拆分为微小片段(如<5%成分的零星分布),可能属于过拟合。

关注CV误差下降的拐点

关键观察点: 虽然无全局谷底,但误差下降速率常会显著减缓(“肘点”, Elbow point)。
如数据示例:

K=2 → 3: 0.425 → 0.400 (Δ= -0.025)  
K=3 → 4: 0.400 → 0.375 (Δ= -0.025)  
K=4 → 5: 0.375 → 0.350 (Δ= -0.025)  
K>5: 下降幅度可能减小(需补充数据)  

图片

可能性: 若K≥5后误差下降趋缓(如Δ<0.01),则K=4或5可能是合理选择。

优先选较小 K 值: 在 CV error 差异不大时,选更简单模型(小 K ),符合奥卡姆剃刀原则,避免过度细分群体。若 K=5、6、7 的 CV error 相近,K=5 更简洁,且分组有意义,就选 K=5 。

结合其他群体结构分析方法

  • PCA(主成分分析): 检查主成分散点图是否显示离散簇群。若PCA无明确分组,则ADMIXTURE的K值不宜过大。

  • 系统发育树: 基于SNP构建邻接树(Neighbor-Joining tree),观察分枝模式是否支持ADMIXTURE的分群。

  • 空间遗传结构: 若样本有地理位置,使用空间自相关分析(如Mantel test)验证成分梯度是否符合距离隔离。

    1. 评估成分稳定性
  • • 对同一K值多次运行ADMIXTURE(不同随机种子),观察祖先成分是否可重复

  • • 若成分在各次运行间剧烈变动(如个体归属不同群体),说明该K值不可靠。

总之,没明显谷底时,要综合数据特点、先验知识、结果可视化对比选 K,让群体划分既贴合数据结构,又有生物学 / 研究场景的合理性 。

欢迎加入知识星球交流,新人入社群限时优惠券100元。

图片

posted @ 2025-06-16 21:24  生物信息与育种  阅读(35)  评论(0)    收藏  举报