基于提示词策略的生物信息学自然语言处理多任务大语言模型基准测试

随着计算生物学的进步,传统方法在解决蛋白质折叠、功能注释及新生物分子设计等问题时逐渐显露局限性,例如计算复杂度高或泛化能力不足。而大语言模型(LLMs)凭借其强大的语言理解与生成能力,为这些问题提供了新的解决方案。它们不仅能处理电子健康记录(EHR)或中医药问答等文本数据,还能分析蛋白质和RNA等生物序列,表现出比传统方法更高的准确性和适应性。

然而,如何系统性地评估LLMs在生物信息学任务中的表现,一直是一个难题。现有评估体系存在显著不足,包括测试数据与训练数据重叠、缺乏统一的答案提取工具以及任务覆盖范围有限等问题。这些缺陷限制了对LLMs在生物信息学中真实能力的全面衡量。因此,亟需一个标准化、覆盖广泛任务的评估框架。

为此,来自香港中文大学、香港大学及上海人工智能实验室的研究团队提出了Bio-benchmark——一个针对生物信息学NLP任务的全面评估框架。

图片

Bio-benchmark框架

Bio-benchmark是一个基于提示(prompting)的评估框架,旨在通过零样本(zero-shot)和少样本(few-shot)设置,测试LLMs在生物信息学任务中的内在能力,而无需模型微调。该框架涵盖7大领域共30项任务,包括蛋白质设计、RNA结构预测、药物相互作用分析、电子病历推理及中医药智能问答等。

图片

核心内容

基准构建:

蛋白质任务:包括蛋白质家族序列设计、物种预测、逆折叠设计和结构预测。

RNA任务:涵盖RNA二级结构预测、功能预测、逆折叠设计和sgRNA效率预测。

RNA结合蛋白任务:评估RNA序列与特定蛋白的结合能力。

药物任务:包括药物-药物相互作用、药物-靶点相互作用和药物设计。

电子健康记录任务:评估模型在诊断预测、治疗计划制定和医疗报告生成中的表现。

医学问答任务:涵盖多选题和开放性问题回答。

传统中医任务:评估模型在中医领域的知识理解和问答能力。

评估方法:

问题定义:给定一组问题,评估LLMs在不同任务上的表现。采用Chain-of-Thought(CoT)方法,准确提取模型生成文本中的标准答案是挑战之一。

细粒度文本评估:使用相似性、专业性和逻辑一致性等指标评估模型输出的质量。定义了全面性、幻觉率、遗漏率和一致性等具体指标。

实验与结果:

BioFinder:提出了一种新的工具BioFinder,用于从LLM响应中提取答案,提取准确率比现有方法高出约30%。

Bio-benchmark:在Bio-benchmark数据集上进行实验,评估六种主流LLMs(如GPT-4o、Llama-3.1-70b等)在零样本和少样本CoT设置下的表现。

结果分析:在不同任务中,LLMs的表现差异显著。例如,在蛋白质物种预测任务中,少样本提示显著提高了所有LLMs的准确性,其中Yi-1.5-34b的准确率提高了六倍以上。在RNA功能预测任务中,Llama-3.1-70b在五样本提示下达到了89%的最高准确率。

结论

这篇论文成功建立了一个综合基准测试框架,用于评估LLMs在生物信息学任务中的表现。利用BioFinder工具,能够准确提取LLM输出的关键答案,显著提高了答案提取的准确性。结果表明,LLMs在多个生物信息学子领域(如蛋白质、RNA和药物设计任务)中表现出色,特别是在少样本学习设置下。未来的研究可以进一步优化提示工程策略,以提高LLMs在特定任务上的效率和精度。

图片

posted @ 2025-06-15 21:59  生物信息与育种  阅读(43)  评论(0)    收藏  举报