2024 年 2月 3 日随笔档案 - HackerChen

2024年2月3日

ICLR 2024 | Mol-Instructions: 面向大模型的大规模生物分子指令数据集

摘要：这些数据表现出显著的长尾分布，凸显了推断特定蛋白质功能的挑战，尤其是那些罕见功能的蛋白质。在自然语言处理（NLP）的众多应用场景中，大型语言模型（Large Language Model, LLM）展现了其卓越的文本理解与生成能力，不仅在传统的文本任务上成绩斐然，更在生物学、计算化学、药物研发等跨学科领域证明了其广泛的应用潜力。Mol-Instructions数据集共计含2043K条指令数据，覆盖了小分子、蛋白质以及生物分子文本三大领域的17个关键任务，包含了不同复杂度和结构的生物分子及丰富的文本描述。阅读全文

posted @ 2024-02-03 13:07 HackerChen 阅读(364) 评论(0) 推荐(0)

hackerchenzhuo

公告