lncRNA分析

 

目前人们对lncRNA认识还处在初级阶段,lncRNA起初被认为是基因组转录的“噪音”,是RNA聚合酶II转录的副产物,不具有生物学功能。然而大量研究表明,lncRNA在细胞核内、核外,通过染色质修饰,转录调控,转录后调控等多种方式调节基因表达,在肿瘤发生发展中具有重要作用。

 

一般来说,lncRNA功能研究的主线包含3个主要步骤:

(1)高通量筛选。全转录组测序和lncRNA芯片是目前最常用的技术手段,通过这种高通量的筛选方法,可以快速获得不同实验组间差异表达的lncRNA和mRNA。

(2)候选lncRNA的确定。通过生物信息学分析,从大量lncRNA 中筛选有潜在功能意义的lncRNA。

(3)目标lncRNA的功能分析与验证。根据上述生物信息分析推断出lncRNA可能的生物学功能,并设计相应的实验来验证假设是否成立。

 

编码能力预测以鉴别novel mRNA和lncRNA

 

分别用CPC,CNCI,PfamScan三个软件来对novel transcript序列做编码能力预测

我们选取主流的三个预测软件官网:

PfamScan:http://pfam.xfam.org/

CPC:http://cpc.cbi.pku.edu.cn/

CNCI:https://github.com/www-bioinfo-org/CNCI

鉴定标准如下:

CPC_threshold = 0,大于0的转录本为mRNA,小于0的为lncRNA

CNCI_threshold = 0,大于0的转录本为mRNA,小于0的为lncRNA

PfamScan:比对上Pfam蛋白数据库的为mRNA,没有比对上的为lncRNA

    注意:1)cpc和PfamScan(  http://www.dxy.cn/bbs/thread/36426921#36426921  作者之前写过用法)需要先建立蛋白参考数据库,cpc可以下载Uniprot/swissprot蛋白序列

              2)PfamScan输入的是蛋白序列,可以由cpc的预测结果得出。

预测完成之后选取三个软件的交集转录本作为novel coding和noncoding转录本

我们在筛选lncRNA的时候,取的是交集,这样筛选的结果会更加准确可靠。

 

很多LNCRNA因为命名不统一,所以网上查找起来很困难,有没有好用的数据库或者方法?

答: 主要是以NCBI为主,比较全面,便于查询。如果你主要关注人和小鼠的LncRNA的话,可以看看GENCODE,这个上面很全,经常更新,而且上面的命名NCBI也可以查询到。

其他物种的话,你可以看下Ensembl上面,他的注释gtf文件里面包含了所有的RNA,但是其中lncRNA比GENCODE要少一些。所有已知的LncRNA在NCBI上面都是可以查询的。NCBI,GENCODE,Ensembl这三个数据库的基因symbol基本一致。所以,如果是人和小鼠,你选择GENCODE比较好,如果是其他物种,就选择Ensembl吧

 

这篇文献主要介绍了lncScore,用python写的一个脚本,主要是依赖一个机器学习第三方库scikit-learn。它能够通过开放阅读框,外显子和最大编码子序列等11个特征参数对lncRNA进行筛选。为了加快lncScore的运行速度,主要采用多线程>分析,只需花费2分钟的时间就能够对64,756个转录本进行分类。
文章里用gencode数据库里的lncRNA数据做了验证
此工具与CPAT, CNCI 和 PLEK类似,我们的lncRNA流程里的编码潜能预测软件用的是CPC CNCI Pfam,貌似CPC也是这个团队开发的。

 

 

 

来源:

https://www.dxy.cn/bbs/newweb/pc/post/36683079

https://www.omicsclass.com/question/995

http://yangguang8112.github.io/tags/%E6%96%87%E7%8C%AE/

http://www.360doc.com/content/18/0607/18/50540690_760476362.shtml

http://www.360doc.com/content/18/0515/20/50540690_754224549.shtml (lncRNA研究常用数据库)

posted on 2020-07-09 17:30  BPSO_mynotes  阅读(2041)  评论(0编辑  收藏  举报

导航