蛋白数据集相似性比对

1、安装NCBI Blast(cmd)
2、把我们收集的蛋白生成数据库
makeblastdb -in D:\1SoftWare\Blast\ourlab_database\CasPedia_CRISPRJ_all_V1.fasta -dbtype prot -out D:\1SoftWare\Blast\ourlab_database\blastdb\our_db
3、运行blastp
blastp -query D:\1SoftWare\Blast\ourlab_database\0_Cas12C_CVC-GPD.fasta -db D:\1SoftWare\Blast\ourlab_database\blastdb\our_db -out D:\1SoftWare\Blast\ourlab_database\result.tsv -outfmt "6 qseqid sseqid pident length qlen slen qcovs qcovhsp evalue bitscore"
4、解释

字段名 英文全称 中文含义 说明
qseqid Query sequence ID 查询序列ID 也就是你输入的 Cas12J 每条序列的名称。
sseqid Subject sequence ID 比对目标序列ID 数据库中的匹配序列(如 GPD16)名称。
pident Percent identity 相同氨基酸比例(%) 比对区域中氨基酸完全相同的比例。
length Alignment length 比对长度 实际匹配的氨基酸数量。
qlen Query length 查询序列总长度 Cas12J 序列的总长度。
slen Subject length 目标序列总长度 GPD16 或数据库中序列的总长度。
qcovs Query coverage per subject 查询序列整体覆盖率(%) 整条查询序列中,有多少比例被目标序列覆盖。
qcovhsp Query coverage per HSP 每个HSP的覆盖率 HSP(High-scoring Segment Pair)指每一段高分匹配区域的覆盖率。
evalue Expect value 期望值(E值) 统计显著性指标:越小表示越不可能是随机匹配,越可信。通常 E < 1e-5 表示显著。
bitscore Bit score 比对得分 BLAST 的综合得分,越高表示相似度越高、匹配越好。
posted @ 2025-09-18 10:15  Zarinan  阅读(8)  评论(0)    收藏  举报