生物信息数据分析准则

从生物体中采集的数据总给人一种混乱不堪的感觉，因为生命系统本来就是一个超级复杂的系统，我们很难完全控制，目前只能观测。

完全不像物理化学数学那么明确，1就是1，2就是2.

所以在分析生物数据时，首先必须要了解数据。

在几个案例中阐述会比较明朗：

1. 人的单细胞转录组数据

测的是iPSC-derived细胞，最理想的数据是什么？就像小鼠一样，同性别、同遗传背景、同发育阶段，尽量保证只有突变上的差异（控制变量法）。但这是不可能的。

首先，每个人的遗传背景肯定是有差异的；其次就是性别差异；细胞发育阶段差异；然后就是突变的差异，我们人为对突变按表型进行了归类，表型本来就是个模糊的概念，突变更是多种多样。

目的是让你找出不同的pathway来表征表型的差异。

是不是有一种吃屎的感觉，这尼玛不是大杂烩吗？

没有正确的方法论的指导，你是肯定无法从混沌中找到真理的，我们必须量化一切的不确定性。

2. GWAS的QC

跑过GWAS流程的就知道它的QC有多繁琐了，就和第一个案例一样，归根结底就是要对数据区分对待，这样才能做出正确的推断。

3. 基因调控网络

别以为中心法则发现了、人基因组测完了、各种细胞基本结构上有所突破就nb了，真到了基因调控网络你就绝望了，这真TM是一个超级复杂却精准的系统，我们现在最前沿的发现可能是非常肤浅的，但是没办法，我们还处于非常初级的探索阶段，只能进行局部的探索，得出有偏的结论。

你要说这么复杂却精密的系统是进化而来的，我还真不信。

所以在分析你的大杂烩的数据前，我们必须要先量化一切的不确定性，这样你得出的结论才是稍微可信的。

怎么量化呢？

这个其实是生物统计考虑的事，具体就是实验设计那一部分。

我还在探索。。。

posted @ 2019-05-10 01:17 Life·Intelligence 阅读(932) 评论(0) 收藏举报

刷新页面返回顶部

Digital-LI