蛋白数据集相似性比对
1、安装NCBI Blast(cmd)
2、把我们收集的蛋白生成数据库
makeblastdb -in D:\1SoftWare\Blast\ourlab_database\CasPedia_CRISPRJ_all_V1.fasta -dbtype prot -out D:\1SoftWare\Blast\ourlab_database\blastdb\our_db
3、运行blastp
blastp -query D:\1SoftWare\Blast\ourlab_database\0_Cas12C_CVC-GPD.fasta -db D:\1SoftWare\Blast\ourlab_database\blastdb\our_db -out D:\1SoftWare\Blast\ourlab_database\result.tsv -outfmt "6 qseqid sseqid pident length qlen slen qcovs qcovhsp evalue bitscore"
4、解释
| 字段名 | 英文全称 | 中文含义 | 说明 |
|---|---|---|---|
| qseqid | Query sequence ID | 查询序列ID | 也就是你输入的 Cas12J 每条序列的名称。 |
| sseqid | Subject sequence ID | 比对目标序列ID | 数据库中的匹配序列(如 GPD16)名称。 |
| pident | Percent identity | 相同氨基酸比例(%) | 比对区域中氨基酸完全相同的比例。 |
| length | Alignment length | 比对长度 | 实际匹配的氨基酸数量。 |
| qlen | Query length | 查询序列总长度 | Cas12J 序列的总长度。 |
| slen | Subject length | 目标序列总长度 | GPD16 或数据库中序列的总长度。 |
| qcovs | Query coverage per subject | 查询序列整体覆盖率(%) | 整条查询序列中,有多少比例被目标序列覆盖。 |
| qcovhsp | Query coverage per HSP | 每个HSP的覆盖率 | HSP(High-scoring Segment Pair)指每一段高分匹配区域的覆盖率。 |
| evalue | Expect value | 期望值(E值) | 统计显著性指标:越小表示越不可能是随机匹配,越可信。通常 E < 1e-5 表示显著。 |
| bitscore | Bit score | 比对得分 | BLAST 的综合得分,越高表示相似度越高、匹配越好。 |

浙公网安备 33010602011771号