【报告解读】构建可复制和可推广的基因组预测模型
报告主题:构建可复制和可推广的基因组预测模型
报告人:Levi Waldron(Virginia Commonwealth University & City University of New York)
报告日期:2018年10月5日
主要内容
1. 背景介绍
-
• 基因组预测模型在生物医学研究中具有重要意义,但如何确保模型的可复制性和可推广性是一个关键问题。
-
• 可复制性:在相同数据和代码下能否得到相同结果。
-
• 可推广性:模型在不同数据集上的表现是否稳定。
-
• 常用的交叉验证(cross-validation)方法虽然能评估模型在单一数据集上的表现,但在跨研究验证(cross-study validation)中往往表现不佳。
2. 卵巢癌预后基因签名的研究案例
-
• 卵巢癌是研究的重点疾病之一,每年约有22,000新病例和14,400死亡病例,多数为晚期、高级别、浆液性癌。
-
• 研究目标包括:
-
• 评估已发表的卵巢癌预后基因表达模型的可复制性。
-
• 使用公开数据验证这些模型。
-
• 基于所有公开数据改进现有模型。
-
• 数据整理:使用
curatedOvarianDataBioconductor包整理了30个数据集,包含超过3000个独特样本。 -
• 模型重现性评估:对14个已发表的卵巢癌预后模型进行了重现性评估,发现部分模型在独立验证数据集上的表现与训练数据集存在较大差异。
3. 模型验证与异质性分析
-
• 使用C-index(一致性指数)评估模型的预测准确性,发现许多模型在跨研究验证中的表现不如在训练数据集上好。
-
• 批效应(batch effect)和混杂因素对模型准确性的影响大于批效应本身。
-
• 验证集选择对模型评估结果有显著影响,不同的验证集可能导致不同的结论。
-
• 研究了三种类型的异质性对预测准确性的影响:
-
• 临床和病理协变量的不平衡。
-
• 基因协方差的差异(如批次、平台或肿瘤纯度效应)。
-
• 残余混杂或其他原因导致的“真实”模型差异。
-
• 未识别的异质性(如未测量的混杂因素)可能比已识别的异质性更重要。
4. “专家”与“通才”算法
-
• 提出了“专家”算法(在单一人群中表现良好)与“通才”算法(在不同人群中表现合理)的概念。
-
• 介绍了一种新的“通才”算法
más-o-menos,通过简单的符号平均方法在不同人群中进行预测,表现出较好的跨研究验证性能。
5. 未来工作方向
-
• 增加可用数据量,以提高模型的稳健性。
-
• 考虑残余的交叉验证(CV)/跨研究验证(CSV)差距。
-
• 扩展用于两步完全非参数引导的
.632方法。 -
• 考虑其他验证指标(如PPV/NPV)。
-
• 在交叉验证中考虑异质性。
6. 数据整理与工具开发
-
• 开发了多个数据包,如
curatedOvarianData、curatedCRCData、curatedBladderData等,为研究人员提供方便的数据资源。 -
• 提出了
MultiAssayExperiment数据结构,用于整合多组学实验数据,支持复杂数据的管理和分析。
报告重点
-
• 可复制性与可推广性:强调了基因组预测模型在不同数据集上的稳定性和一致性的重要性。
-
• 异质性的影响:揭示了不同类型的异质性对模型准确性的影响,特别是未识别的异质性。
-
• 新算法的探索:提出了
más-o-menos等新算法,以提高模型在跨研究验证中的表现。 -
• 数据整理与工具开发:展示了如何通过数据整理和工具开发来支持基因组预测模型的研究。
欢迎加入知识星球领取完整PPT,新人入社群限时优惠券100元。
本文来自博客园,作者:生物信息与育种,转载请注明原文链接:https://www.cnblogs.com/miyuanbiotech/p/18931810。若要及时了解动态信息,请关注同名微信公众号:生物信息与育种。

浙公网安备 33010602011771号