在基于GEO数据集(如你研究中涉及的GSE66187、GSE32967等)的分析中,建议对下载的原始数据进行低表达基因过滤,这是数据预处理的关键步骤之一,可提升后续分析(如差异表达、WGCNA)的准确性和可靠性。

1. 为什么应该删除低表达信息?

  • 降低背景噪音:低表达基因的信号可能源于技术误差(如芯片探针非特异性结合、测序随机波动),而非真实生物学差异,保留会干扰后续分析结果。
  • 减少计算负担:过滤后可显著减少基因数量(如从数万维降至数千维),提升差异分析、网络构建等步骤的计算效率。
  • 避免假阴性/假阳性:低表达基因的表达量波动大,可能导致差异分析中错误识别非真实差异基因,或在WGCNA中破坏共表达网络的稳定性。

2. 常用的低表达过滤标准(以你使用的芯片/转录组数据为例)

由于你研究中GEO数据集具备芯片数据(如GPL570、GPL15659等),低表达过滤可参考以下通用标准,需结合数据类型(芯片/RNA-seq)调整:

数据类型常用过滤标准
芯片数据(如本研究)保留在至少50%-70%的样本中表达值(如芯片信号值)高于背景阈值(如GEO平台提供的阴性对照信号均值+2倍标准差)的基因。
RNA-seq数据(若涉及)保留至少在3个样本中counts值≥10(或TPM≥1)的基因(避免单一样本高表达驱动的假阳性)。

示例操作(R语言)
若使用limma处理芯片数据,可先通过rowMeans()计算每个基因的平均表达值,再过滤“平均表达值低于背景阈值”或“在多数样本中无表达”的基因:

# 假设expr_matrix为芯片原始表达矩阵(行=基因,列=样本)
# 1. 计算每个基因在所有样本中的表达值是否高于背景阈值(如200,需根据GEO平台调整)
gene_expr_filter <- rowMeans(expr_matrix >
  200) >
  0.5 # 至少50%样本表达高于阈值
  # 2. 过滤低表达基因
  expr_filtered <- expr_matrix[gene_expr_filter, ]

3. 注意事项

  • 结合数据特性调整:不同GEO数据集的平台(如你研究中的GPL570、GPL24676)背景信号不同,需先查看对应GEO平台的“Series Matrix File”说明,确定合理的背景阈值,避免过度过滤导致丢失关键低表达但有生物学意义的基因(如部分转录因子)。
  • 批次效应处理前执行:低表达过滤建议在sva包去除批次效应之前完成,避免批次差异干扰低表达基因的判断。
  • 一致性验证:若后续需合并多个数据集(如你研究中合并GSE32967和GSE104786),需对每个信息集分别进行低表达过滤,再统一进行批次校正和合并,确保各数据集的基因筛选标准一致。

低表达基因过滤的核心是剔除表达量极低、信噪比差的基因,以减少后续分析噪声,常用方法主要分为基于表达量阈值基于检测率阈值两大类,具体如下:

一、基于表达量阈值的过滤(最常用)

通过设定基因的“绝对/相对表达量下限”,过滤掉表达水平过低的基因,适用于RNA-seq(FPKM/RPKM/TPM)、芯片等数据。

  1. 固定阈值法
    直接设定统一的表达量 cutoff,低于该值的基因被过滤。

    • 示例:RNA-seq数据中,过滤掉FPKM < 1TPM < 0.5的基因;芯片数据中,过滤掉信号值 < 背景信号均值+2倍标准差的基因。
    • 优点:简单直接;缺点:未考虑样本间差异,可能对不同样本类型(如组织、细胞系)不够灵活。
  2. 分位数阈值法
    基于所有基因表达量的分位数设定阈值,避免受极端值影响。

    • 示例:保留表达量高于所有基因第25百分位(Q1)第10百分位(Q0.1)的基因(具体分位数需根据数据量调整,小样本可适当降低分位数)。
    • 优点:适应数据整体分布,比固定阈值更稳健;缺点:分位数选择依赖经验。
  3. 中位数绝对偏差(MAD)法
    基于基因表达量的中位数和离散度设定阈值,更适合偏态分布的数据。

    • 逻辑:计算所有基因表达量的中位数(Med)和MAD,过滤掉表达量 < Med - k×MAD(k通常取1或2)的基因。
    • 优点:抗极端值干扰,适合表达量分布不均匀的数据集(如单细胞RNA-seq)。

二、基于检测率阈值的过滤(结合样本存在性)

核心逻辑:若一个基因在绝大多数样本中都未检测到表达,则其生物学意义低,应被过滤。适用于多样本数据集(如临床队列、重复实验)。

  • 具体操作:设定“基因被检测到的样本比例”阈值,过滤掉检测率低于该比例的基因。
    • 示例1:RNA-seq中,“检测到表达”定义为FPKM > 1,过滤掉“在 < 30% 样本中满足FPKM > 1”的基因。
    • 示例2:单细胞RNA-seq中,“检测到表达”定义为基因在细胞中计数 > 0,过滤掉“在 < 5% 细胞中表达”的基因。
  • 优点:考虑基因在样本中的“存在性”,避免保留仅在个别样本中低表达的“偶然噪声基因”;缺点:依赖“检测到表达”的定义(需结合表达量阈值)。

三、其他补充方法(针对特殊场景)

  1. 样本特异性过滤
    针对“仅在极个别样本中高表达、其余样本低表达”的基因(可能是样本污染或技巧误差),通过以下方式过滤:

    • 计算基因在所有样本中的变异系数(CV = 标准差/均值),过滤掉 CV 过高(如 CV > 10)且多数样本表达量低的基因。
  2. 生物学先验过滤
    结合已知生物学知识剔除低价值基因,例如:

    • 过滤掉核糖体RNA(rRNA)、线粒体RNA(mtRNA)基因(除非研究重点是线粒体功能);
    • 基于数据库(如Ensembl)过滤掉“预测性非编码RNA”(无明确功能注释的低表达转录本)。

常见工具实现(附示例)

方法常用工具示例代码(R语言)
固定阈值(TPM)edgeR/DESeq2keep <- rowMeans(tpm) > 1; filtered_tpm <- tpm[keep, ]
检测率过滤base Rdetect_rate <- rowMeans(counts > 0) # 计数>0视为检测到;keep <- detect_rate > 0.3
分位数阈值base Rq25 <- quantile(rowMeans(fpkm), 0.25); keep <- rowMeans(fpkm) > q25

实际分析中,通常会组合两种方法(如“先过滤检测率<30%的基因,再过滤TPM均值<1的基因”),以更精准地保留高可信度的表达基因。

posted on 2025-09-18 22:59  ycfenxi  阅读(66)  评论(0)    收藏  举报