RPKM 简介

RNA-seq是通过次世代定量测序的技术来侦测基因表达量的方法，在衡量基因表达量时，若是单纯以map到ref序列的read数来计算基因的表达量，在统计上是一件相当不合理，因为在随机抽样的情况下，序列较长的基因被抽到的几率本来就会比序列较短的基因高，而错估基因真正的表达量，所以Ali Mortzavi等人在2008年提出一RPKM来估计基因的表达量。

RPKM是将map到ref序列的某个基因的read数除以map到genome的所有read数（以million为单位）与RNA长度的乘积（以KB为单位）。

其公式为：

其中，total exon reads/mapped reads可以视为所有read数中有多少百分比是map到这个基因。

下面以一个简化的例子来说明RPKM的应用与概念：

假设一个生物体只有两个基因，一个9KB，一个1KB，如今有一个sample，其map到9KB长度的基因的reads数位18 million个，map到1KB的有2million个，如下图所示：

对于9 KB的基因而言，

total exon reads = 18 million

mapped reads = （18 + 2）million

exon length = 9 KB

可知：RPKM = 18/((18+2)*9) = 0.1

同理可得，对于 1 KB的基因，其 RPKM 为 2 /(20*1) = 0.1。

由此，我们认为这两个基因的表达量是没有差别的。

假设此时我们有另外一个sample，其表达量如下图所示：

我们可以发现此sample中9 KB基因的reads数明显少于上一个sample，但是计算出来的RPKM值却与上一个sample相同，同为0.1，这可能是因为cDNA浓度较低或是sample制备过程中出现的问题，造成整体reads变少，但是对于9 KB基因而言，其reads数所占的reads总数的比例未发生改变，其表达量与上一个sample相同。

参考来源：

Public Library of Bioinformatics

posted @ 2012-11-01 10:14 fw1121 阅读(1037) 评论(0) 收藏举报

刷新页面返回顶部

fw1121

RPKM 简介

公告