RPKM 简介
RNA-seq是通过次世代定量测序的技术来侦测基因表达量的方法,在衡量基因表达量时,若是单纯以map到ref序列的read数来计算基因的表达量,在统计上是一件相当不合理,因为在随机抽样的情况下,序列较长的基因被抽到的几率本来就会比序列较短的基因高,而错估基因真正的表达量,所以Ali Mortzavi等人在2008年提出一RPKM来估计基因的表达量。
RPKM是将map到ref序列的某个基因的read数除以map到genome的所有read数(以million为单位)与RNA长度的乘积(以KB为单位)。
其公式为:
其中,total exon reads/mapped reads可以视为所有read数中有多少百分比是map到这个基因。
下面以一个简化的例子来说明RPKM的应用与概念:
假设一个生物体只有两个基因,一个9KB,一个1KB,如今有一个sample,其map到9KB长度的基因的reads数位18 million个,map到1KB的有2million个,如下图所示:
对于9 KB的基因而言,
total exon reads = 18 million
mapped reads = (18 + 2)million
exon length = 9 KB
可知:RPKM = 18/((18+2)*9) = 0.1
同理可得,对于 1 KB的基因,其 RPKM 为 2 /(20*1) = 0.1。
由此,我们认为这两个基因的表达量是没有差别的。
假设此时我们有另外一个sample,其表达量如下图所示:
我们可以发现此sample中9 KB基因的reads数明显少于上一个sample,但是计算出来的RPKM值却与上一个sample相同,同为0.1,这可能是因为cDNA浓度较低或是sample制备过程中出现的问题,造成整体reads变少,但是对于9 KB基因而言,其reads数所占的reads总数的比例未发生改变,其表达量与上一个sample相同。
参考来源:

![1311734007-0d2a28b2539c4de4ed198a56d[2] 1311734007-0d2a28b2539c4de4ed198a56d[2]](https://images.cnblogs.com/cnblogs_com/fw1121/201211/201211011014268571.png)
![1311734030-b8cf1b356a89d683f5d82ce5f[2] 1311734030-b8cf1b356a89d683f5d82ce5f[2]](https://images.cnblogs.com/cnblogs_com/fw1121/201211/201211011014274045.png)
![1311734055-f32bccd68131c254ec33d20db[2] 1311734055-f32bccd68131c254ec33d20db[2]](https://images.cnblogs.com/cnblogs_com/fw1121/201211/201211011014278995.png)
浙公网安备 33010602011771号