# 2 Rosalind 问题 — 生物信息学要塞 — “共识和简介 (CONS)”

在这篇文章，我将告诉你如何回答 “共识和简介” 问题位于 Rosalind 网站上的“Bioinformatics Stronghold”。

Bioinformatics Stronghold on Rosalind’s Site

我本来打算按照问题列表视图中出现的顺序来写这些文章，但是在完成这个问题并意识到讨论它的资源严重不足后，我决定立即写这篇文章。

这绝对是迄今为止我在完成 Rosalind 问题时遇到的比较困难的问题之一。这个问题的知识基础是我们正在创建一个“共识”字符串和一个配置文件矩阵。这些在问题附带的附加信息中得到了很好的解释，但我会尽力总结这个问题的应用和本质。

问题： 在这个问题中，我们得到了一系列以 FASTA 文件格式提供的字符串——这是记录序列数据时生物信息学中使用的一种常见文件格式。在问题的屏幕截图中，您可以看到序列的标题以“>”（胡萝卜）字符开头，然后是序列的名称。然后是一个 "\n" [新行] 然后是序列数据本身。

就我个人而言，处理这种格式是完成这个问题的障碍之一。

成功提取 FASTA 文件中每个序列的序列数据后，您必须创建一个配置文件矩阵：

在此矩阵中，您必须考虑给定 DNA 序列中每个单独核苷酸的位置，并列举特定核苷酸在某个位置出现的频率。正如我们在上面的例子中看到的，“A”核苷酸在第一个位置出现了 5 次，“T”核苷酸在第二个位置出现了 5 次，以此类推。此配置文件矩阵对于发现共有序列至关重要。该字符串本质上采用每个位置最常出现的核苷酸并将它们合并以创建一个字符串，该字符串包含文件中所有字符串之间的一致性。这项工作有助于发现给定的每个单独序列的最近共同祖先的序列可能是什么。

好的，关于这个问题的冗长但必要的讨论已经够多了，让我们进入代码！