基因组索引文件xxx.fai格式
001、由fasta文件生成fai文件
root@DESKTOP-1N42TVH:/home/test5/test# ls all.con.fa root@DESKTOP-1N42TVH:/home/test5/test# samtools faidx all.con.fa root@DESKTOP-1N42TVH:/home/test5/test# ls all.con.fa all.con.fa.fai
002、fai文件格式
root@DESKTOP-1N42TVH:/home/test5/test# head -n 5 all.con.fa.fai Chr1 43270923 6 50 51 Chr2 35937250 44136354 50 51 Chr3 36413819 80792356 50 51 Chr4 35502694 117934458 50 51 Chr5 29958434 154147212 50 51
第一列染色体:
root@DESKTOP-1N42TVH:/home/test5/test# ls all.con.fa all.con.fa.fai root@DESKTOP-1N42TVH:/home/test5/test# cat all.con.fa.fai Chr1 43270923 6 50 51 Chr2 35937250 44136354 50 51 Chr3 36413819 80792356 50 51 Chr4 35502694 117934458 50 51 Chr5 29958434 154147212 50 51 Chr6 31248787 184704821 50 51 Chr7 29697621 216578590 50 51 Chr8 28443022 246870170 50 51 Chr9 23012720 275882059 50 51 Chr10 23207287 299355041 50 51 Chr11 29021106 323026481 50 51 Chr12 27531856 352628017 50 51 ChrUn 633585 380710518 60 61 ChrSy 592136 381354670 60 61 root@DESKTOP-1N42TVH:/home/test5/test# grep "^>" all.con.fa >Chr1 >Chr2 >Chr3 >Chr4 >Chr5 >Chr6 >Chr7 >Chr8 >Chr9 >Chr10 >Chr11 >Chr12 >ChrUn >ChrSy
第二列:每条染色体上的碱基数目:
root@DESKTOP-1N42TVH:/home/test5/test# ls all.con.fa all.con.fa.fai root@DESKTOP-1N42TVH:/home/test5/test# cat all.con.fa.fai Chr1 43270923 6 50 51 Chr2 35937250 44136354 50 51 Chr3 36413819 80792356 50 51 Chr4 35502694 117934458 50 51 Chr5 29958434 154147212 50 51 Chr6 31248787 184704821 50 51 Chr7 29697621 216578590 50 51 Chr8 28443022 246870170 50 51 Chr9 23012720 275882059 50 51 Chr10 23207287 299355041 50 51 Chr11 29021106 323026481 50 51 Chr12 27531856 352628017 50 51 ChrUn 633585 380710518 60 61 ChrSy 592136 381354670 60 61 root@DESKTOP-1N42TVH:/home/test5/test# awk '{if($0 ~ /^>/) { print a, sum; a = $0; sum = 0} else {sum += length($0)}} END {print a, sum}' all.con.fa >Chr1 43270923 >Chr2 35937250 >Chr3 36413819 >Chr4 35502694 >Chr5 29958434 >Chr6 31248787 >Chr7 29697621 >Chr8 28443022 >Chr9 23012720 >Chr10 23207287 >Chr11 29021106 >Chr12 27531856 >ChrUn 633585 >ChrSy 592136
第三列:每条染色体之前的所有字符数
root@DESKTOP-1N42TVH:/home/test5/test# ls all.con.fa all.con.fa.fai root@DESKTOP-1N42TVH:/home/test5/test# cat all.con.fa.fai Chr1 43270923 6 50 51 Chr2 35937250 44136354 50 51 Chr3 36413819 80792356 50 51 Chr4 35502694 117934458 50 51 Chr5 29958434 154147212 50 51 Chr6 31248787 184704821 50 51 Chr7 29697621 216578590 50 51 Chr8 28443022 246870170 50 51 Chr9 23012720 275882059 50 51 Chr10 23207287 299355041 50 51 Chr11 29021106 323026481 50 51 Chr12 27531856 352628017 50 51 ChrUn 633585 380710518 60 61 ChrSy 592136 381354670 60 61 root@DESKTOP-1N42TVH:/home/test5/test# cut -f 1 all.con.fa.fai | while read i; do sed -n "0,/^>$i$/p" all.con.fa | wc -c; done 6 44136354 80792356 117934458 154147212 184704821 216578590 246870170 275882059 299355041 323026481 352628017 380710518 381354670
第四列、每条染色体上每一行上的碱基数目
root@DESKTOP-1N42TVH:/home/test5/test# ls all.con.fa all.con.fa.fai root@DESKTOP-1N42TVH:/home/test5/test# cat all.con.fa.fai Chr1 43270923 6 50 51 Chr2 35937250 44136354 50 51 Chr3 36413819 80792356 50 51 Chr4 35502694 117934458 50 51 Chr5 29958434 154147212 50 51 Chr6 31248787 184704821 50 51 Chr7 29697621 216578590 50 51 Chr8 28443022 246870170 50 51 Chr9 23012720 275882059 50 51 Chr10 23207287 299355041 50 51 Chr11 29021106 323026481 50 51 Chr12 27531856 352628017 50 51 ChrUn 633585 380710518 60 61 ChrSy 592136 381354670 60 61 root@DESKTOP-1N42TVH:/home/test5/test# cut -f 1 all.con.fa.fai | while read i; do grep -w -A 2 "^>$i$" all.con.fa | sed -n 2p | awk '{print length($0)}'; done 50 50 50 50 50 50 50 50 50 50 50 50 60 60
第五列、每条染色体上每一行上的碱基所占的字节数目
root@DESKTOP-1N42TVH:/home/test5/test# ls all.con.fa all.con.fa.fai root@DESKTOP-1N42TVH:/home/test5/test# cat all.con.fa.fai Chr1 43270923 6 50 51 Chr2 35937250 44136354 50 51 Chr3 36413819 80792356 50 51 Chr4 35502694 117934458 50 51 Chr5 29958434 154147212 50 51 Chr6 31248787 184704821 50 51 Chr7 29697621 216578590 50 51 Chr8 28443022 246870170 50 51 Chr9 23012720 275882059 50 51 Chr10 23207287 299355041 50 51 Chr11 29021106 323026481 50 51 Chr12 27531856 352628017 50 51 ChrUn 633585 380710518 60 61 ChrSy 592136 381354670 60 61 root@DESKTOP-1N42TVH:/home/test5/test# cut -f 1 all.con.fa.fai | while read i; do grep -w -A 2 "^>$i$" all.con.fa | sed -n 2p | wc -c; done 51 51 51 51 51 51 51 51 51 51 51 51 61 61

浙公网安备 33010602011771号