RPKM 简介

RNA-seq是通过次世代定量测序的技术来侦测基因表达量的方法,在衡量基因表达量时,若是单纯以map到ref序列的read数来计算基因的表达量,在统计上是一件相当不合理,因为在随机抽样的情况下,序列较长的基因被抽到的几率本来就会比序列较短的基因高,而错估基因真正的表达量,所以Ali Mortzavi等人在2008年提出一RPKM来估计基因的表达量。

RPKM是将map到ref序列的某个基因的read数除以map到genome的所有read数(以million为单位)与RNA长度的乘积(以KB为单位)。

其公式为:

1311734007-0d2a28b2539c4de4ed198a56d[2]

其中,total exon reads/mapped reads可以视为所有read数中有多少百分比是map到这个基因。

下面以一个简化的例子来说明RPKM的应用与概念:

假设一个生物体只有两个基因,一个9KB,一个1KB,如今有一个sample,其map到9KB长度的基因的reads数位18 million个,map到1KB的有2million个,如下图所示:

1311734030-b8cf1b356a89d683f5d82ce5f[2]

对于9 KB的基因而言,

total exon reads = 18 million

mapped reads = (18 + 2)million

exon length = 9 KB

可知:RPKM = 18/((18+2)*9) = 0.1

同理可得,对于 1 KB的基因,其 RPKM 为 2 /(20*1) = 0.1。

由此,我们认为这两个基因的表达量是没有差别的。

假设此时我们有另外一个sample,其表达量如下图所示:

1311734055-f32bccd68131c254ec33d20db[2]

我们可以发现此sample中9 KB基因的reads数明显少于上一个sample,但是计算出来的RPKM值却与上一个sample相同,同为0.1,这可能是因为cDNA浓度较低或是sample制备过程中出现的问题,造成整体reads变少,但是对于9 KB基因而言,其reads数所占的reads总数的比例未发生改变,其表达量与上一个sample相同。

参考来源:

Public Library of Bioinformatics

posted @ 2012-11-01 10:14  fw1121  阅读(1037)  评论(0)    收藏  举报