普通人若要验证生成的蛋白质序列或结构,是否满足他们的需求,还需要进行昂贵的实验。因此对比来看,蛋白设计比图像和文本的生成的验证更困难。这些模型的好坏取决于它们的训练数据、模型架构等。特别是关于功能映射,仍是当今蛋白质工程中最难的挑战,即使是最大最复杂的模型也无法克服这一挑战。事实上,虽然机器学习已经迅速改变了结构预测领域,但仍然需要大量工作才能可靠地预测蛋白质功能。因此,对于主要不是由宏观结构驱动的功能(例如酶活性,依靠局部活性位点),建立准确的条件生成模型通常会更加困难。对于酶,生成模型现在通常固定已知的活性位点进行设计,这其实没有从头设计。然而,很大程度上由宏观结构决定的功能,例如结合,目前已经可以实现从头设计。
Hsu, C., Fannjiang, C. & Listgarten, J. Generative models for protein structures and sequences. Nat Biotechnol 42, 196–199 (2024).
酶蛋白对基于结构的从头设计提出了艰巨的挑战,因为物理过程(键断裂和形成)的亚埃米尺度需要一定程度的准确性,而这在结构数据集或蛋白质设计方法中不总是能够实现。
Chu, A.E., Lu, T. & Huang, PS. Sparks of function by de novo protein design. Nat Biotechnol 42, 203–215 (2024). https://doi.org/10.1038/s41587-024-02133-2
自然语言处理在很多方法上都走在蛋白质语言模型的前面,对于蛋白质语言模型的处理,可以更多的参考自然语言处理的成熟方案。
Sledzieski, Samuel, et al. "Democratizing protein language models with parameter-efficient fine-tuning." PNAS 121.26 (2024): e2405840121.
本文来自博客园,作者:计算之道,转载请注明原文链接:https://www.cnblogs.com/jszd/p/19086253