摘要: 这些数据表现出显著的长尾分布,凸显了推断特定蛋白质功能的挑战,尤其是那些罕见功能的蛋白质。在自然语言处理(NLP)的众多应用场景中,大型语言模型(Large Language Model, LLM)展现了其卓越的文本理解与生成能力,不仅在传统的文本任务上成绩斐然,更在生物学、计算化学、药物研发等跨学科领域证明了其广泛的应用潜力。Mol-Instructions数据集共计含2043K条指令数据,覆盖了小分子、蛋白质以及生物分子文本三大领域的17个关键任务,包含了不同复杂度和结构的生物分子及丰富的文本描述。 阅读全文
posted @ 2024-02-03 13:07 HackerChen 阅读(127) 评论(0) 推荐(0) 编辑