Circos图
核心的是config配置文件,
它决定了Circos的每一圈读入什么样的数据,并且决定它们以什么方式展示,是柱状图还是散点图,也包括颜色、字体等等。
config文件又分为多个子config文件,我们在作图时可以在主config文件中调用这些子config文件,最后将整理好的config文件传递给Circos,即可做出各式各样的Circos图。
一个典型的Circos图最外圈一般是染色体的示意图(ideogram),上面的刻度表示染色体的坐标位置。以第一条染色体为例,由于chr1的length=249 250621,我们以1Mbp为单位,那刻度范围就为0~249。
用Kb (千),Mb(百万)、Gb(十亿)为单位描述基因组的大小。
bp = base pair(s)=一个碱基对
kb (= kbp) = kilo base pairs = 1,000 bp
Mb (= Mbp) = mega base pairs = 1,000,000(100万) bp
Gb = giga base pairs = 1,000,000,000(10亿)bp
将它跟平时看惯的x-y直角坐标系类比,只不过我们平时看到的坐标是类似(22,39545),而在Circos中,这个坐标变为(hs1 28000000 28999999 0.002489),其中第一个字符表示人染色体编号,等同于chr1,
28000000表示染色体起始位置,28999999表示终止位置,
由这三个值便确定了突变信息所在的坐标位置,相当于x-y轴坐标体系中x的值已经确定了,而0.002489则表示该坐标处所对应的值,相当于y轴的值也定下来了,很多行这样的值通过点或者线的方式连起来,就构成了上面的图。
其实hs1 28000000 28999999确实表示一个范围,横跨了999999个碱基(近似于1Mb),而在这个范围内的值都是0.002489,连起来其实是一条横线,但由于染色体太长,我们不可能以1bp为单位去展示,正如上面提到的,我们用1Mb为单位(chr1的长度范围为0-249),因此这个范围在染色体示意图上实际也就成了一个点;
而0.002489在我们这个例子中是表示这个范围内snp的密度(这一范围内snp的数目有2489个,而2489/(28999999-28000000)=0.002489),在不同的文章中,这个值会被赋予完全不同的含义
我们都知道人与人之间99%以上的DNA序列是一样的,但是也存在一定的差异,我们把这种差异交做单核苷酸多态性-SNP,很多SNP与个体的健康状况都存在密切的联系,这包括糖尿病、癌症等等。