随笔分类 - 生物信息
摘要:mRNA(message RNA):信使RNA,是由编码区(CDS)、上游5’非编码区和下游3’非编码区组成,真核生物的mRNA5’端带有7-甲基鸟苷-三磷酸帽子结构,3’端有多腺苷酸尾巴,但NCBI中的mRNA序列世界上是cDNA序列,即经过反转录得到的与mRNA互补的DNA序列,一般不包括’端有多腺苷酸尾巴。一个cDNA序列被称为一个转录子,第一个碱基所在的位置为转录起始位点(TSS),cDNA都是由外显子组成,但编码蛋白质的外显子只有一个,即CDS(coding sequence),这段序列也就是一个ORF区,也就是这个cDNA的ORF序列。参与特定基因转录及调控的TSS上游序列称为启动
阅读全文
摘要:转座子(transposon):能将自身插入基因组新位置的DNA序列。是一种可以由染色体的一个位置转移到另外位置的遗传因子,也就是一段可以发生转座(transposition)的DNA。单拷贝序列(single copy sequences):在单倍体基因组中只出现一次或数次,又称为低度重复序列。在基因组中,单拷贝顺序一般与重复序列相间排列。真核生物的结构基因两侧有非编码区,在基因内部有间隔序列(intervening sequences),称为内含子(intron),编码区称为外显子(exon)。内含子与外显子相间排列,转录时一起被转录下来。因此整个生物的基因是断裂基因,转录成RNA后经过剪
阅读全文
摘要:寡核苷酸(oligonucleotide):是指2-10个核苷酸以磷酸二酯键连接而成的线性多核苷酸片段。30甚至更多个核苷酸残基的多核苷酸分子也称作寡核苷酸。寡核苷酸可由仪器自动合成,它可以作为DNA合成的引物(primer)、基因探针(probe)等,在现代分子生物学研究中具有广泛的用途。DNA复制的特征:半保留复制、半连续复制;DNA聚合酶依赖于DNA模板与引物;所有的DNA聚合酶按照5'—>3'方向(模板DNA为3'—>5'方向)合成DNA;DNA聚合酶合成DNA需要4种脱氧核糖核酸分子: dATP, dGTP,dCTP, and dTTP。基
阅读全文
摘要:最近在狂补分子生物学相关知识,一下对看到的做一个总结:基因: DNA有遗传意义的片段叫基因,基因包含一定数量的碱基。基因是基础的遗传单位,它们决定一个人眼睛的颜色,耳朵的大小等所有人的生理特征和一些行为特征。更总要的是,基因与许多疾病相关。基因组:每个人的每个细胞的细胞核中包含分别来自父体和母体的两套染色体,基因组就是每一套染色体上的全部基因。基因组包括有机体的全部遗传特征。染色体:长长的、细细的、像蠕虫一样的丝线,存在与细胞核中,由核酸和蛋白质组成。染色体在细胞发生有丝分裂时期容易被碱性染料着色,因此而得名。在无性繁殖物种中,生物体内所有细胞的染色体数目都一样。而在有性繁殖物种中,生物体的体
阅读全文
摘要:基因组拼接中常见的名词解释Read: 高通量测序平台产生的序列就称为reads。Contig: 拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)。Scanffold: 基因组de novo测序,通过reads拼接获得Contigs后,往往还需构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb, 6Kb, 10Kb, 20Kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scanffold。Contig N50: Reads拼接后会获得一些不同长度
阅读全文
摘要:RNA-seq是通过次世代定量测序的技术来侦测基因表达量的方法,在衡量基因表达量时,若是单纯以map到ref序列的read数来计算基因的表达量,在统计上是一件相当不合理,因为在随机抽样的情况下,序列较长的基因被抽到的几率本来就会比序列较短的基因高,而错估基因真正的表达量,所以Ali Mortzavi等人在2008年提出一RPKM来估计基因的表达量。RPKM是将map到ref序列的某个基因的read数除以map到genome的所有read数(以million为单位)与RNA长度的乘积(以KB为单位)。其公式为:其中,total exon reads/mapped reads可以视为所有read数
阅读全文

浙公网安备 33010602011771号