Geneformer的预训练数据以及数据预处理

Genecorpus-30M 的大规模单细胞转录组数据集中,行特征和列特征的具体内容,以及如何利用这些数据支持生物学和医学研究:

行特征属性(Row Feature Attributes)

  • 包括 Ensembl 注释信息:基因的 ID、ID 版本(如果原始研究提供)、名字和类型(如蛋白编码、microRNA、线粒体等)。
  • 注释数据的来源:数据从 Ensembl 和 MyGene156 数据库检索得到,这两个是广泛使用的生物信息学资源,提供关于基因功能和结构的详细信息。

列特征属性(Column Cell Attributes)

  1. 包括唯一的 Genecorpus-30M 细胞 ID

    • 这个 ID 结合了数据集名称、样本名称和来自该数据集的细胞条形码,确保每个细胞在数据集中都有唯一标识。
    • 数据集和样本名称作为单独的属性包含,并能够用于衍生细胞条形码,这对于数据处理和分析具有重要意义。
  2. 包括了数据集中包含的主要器官

    • 细胞特征还涵盖了数据集中包含的主要器官,这些器官被归类为多个类别(如脂肪、肾脏、大肠等)。
    • 这种分类有助于研究者快速识别和分析特定器官相关的细胞数据。
  3. 包括了特定的器官信息

    • 根据原始研究提供的元数据,还包括了数据集中包含的具体器官信息。
    • 这提供了更详细的生物样本背景,增强了数据的应用价值和研究深度。
  4. 如果原始研究包含细胞类型注释

    • 则这些注释也被作为每个细胞的细胞类型列属性包含进来。
    • 细胞类型信息对于理解细胞功能和细胞间的差异至关重要。
  5. 测序平台的信息也被包括

    • 这有助于了解数据生成的技术背景,对于评估数据质量和进行技术标准化分析非常重要。

总结

整个段落详细介绍了 Genecorpus-30M 数据集的组织结构和标注信息,强调了如何通过详细的基因和细胞属性增加数据集的科研价值。这些详细的标注信息使得数据集不仅能用于广泛的生物医学研究,也便于研究人员根据具体需求进行精确的数据检索和分析。这种高度组织化的数据结构是大规模生物数据集管理的典范,确保了数据的实用性和科研的深入性。

数据预处理

这段文本详细描述了在Genecorpus-30M数据集中进行基因表达数据标准化处理的步骤,以确保分析的准确性和一致性。这一过程涉及几个关键的数据处理步骤,旨在为未来的模型训练和数据分析建立一个可靠的基准。下面是对这段描述的详细解释:

数据标准化处理步骤

  1. 计算非零中位数表达值:

    • 首先,对通过质量过滤的每个细胞中检测到的基因,计算其表达的非零中位数。这意味着从整个Genecorpus-30M数据集中,只考虑那些在细胞中实际被检测到表达的基因的中位数,排除表达值为零的情况。
  2. 聚合转录本计数分布:

    • 使用loompy工具高效地通过扫描.loom数据文件的块来聚合每个基因的转录本计数分布。这样做可以节省内存,提高处理大规模数据的效率。
  3. 标准化转录本计数:

    • 在每个细胞中,通过该细胞的总转录本计数来标准化基因的转录本计数,以补偿测序深度的变化。这确保了不同细胞之间的数据可比性。
  4. 更新标准化计数分布:

    • 使用为准确在线积累基于排名的统计数据而开发的t-digest数据结构,更新基因的标准化计数分布。
  5. 对单细胞转录组中的基因进行再标准化:

    • 根据Genecorpus-30M中每个基因的非零中位表达值对单个细胞转录组中的基因进行标准化,并按其在特定细胞中标准化表达的排名顺序排列基因。

额外注意点

  • 选择使用非零中位数而非包含零的分布:

    • 这一选择是为了避免由于组织表达不均导致的权重偏差,假设在检测到每个基因的细胞中会观察到代表性的转录本值范围。
  • 一次性计算标准化因子:

    • 每个基因的这一标准化因子只计算一次,并用于所有未来呈现给模型的数据集,确保了处理新数据集时的一致性。
  • tokenizer代码包括此标准化过程:

    • 提供的tokenizer代码包含了这种标准化处理步骤,应用于新数据集的token化,以确保每个基因使用的标准化因子的一致性。

总结

通过这一系列详细的数据预处理步骤,研究人员能够确保基因表达数据在分析和模型训练前具有高度的一致性和准确性。这对于后续的生物信息学分析、数据解释以及基于这些数据的科学发现至关重要。这种方法不仅提高了数据的质量,也优化了资源的使用,使得处理庞大的数据集变得更加高效和精确。

posted @ 2024-06-28 16:15  wuhaoliu  阅读(131)  评论(0)    收藏  举报  来源