化学领域的 LLM 革命!化学乌鸦(ChemCrow)一个利用外部工具的集成引擎

大规模语言模型驱动的化学引擎(如 ChemCrow)的实施和使用有可能将不同专家设计的工具结合起来,为非专业研究人员提供支持。这些自动化平台需要经过人类操作员和化学专家的严格审查,但必须确保负责任地开发和使用大规模语言模型代理。

全球安全标准规定,只有事先接受过培训和其他相关信息的化学家才能使用化学实验室。然而,根据大型语言模型驱动的化学引擎的建议进行实验,可能会导致事故和危险情况的发生。因此,如下图所示,ChemCrow 遵循一套硬编码准则,检查所查询的分子是否为已知受控化学品或其他安全信息。如果是,则停止运行。如果不是,则继续运行,模型会重新使用这些信息,以提供更完整的回复,包括建议物质的安全问题以及如何安全处理这些物质的有理有据的建议。

 

它还提供安全指导,包括安全信息检查,并通过整合安全检查和专家审查系统,确保各项建议符合安全标准和协议。

大规模语言模型驱动的化学引擎对化学知识的了解不足,有可能导致错误的决策和有问题的实验结果。为缓解这一问题,整合专家设计的工具并改进训练数据的质量和范围,可以提高引擎对化学概念的理解。

此外,还鼓励用户批判性地评估所提供的信息,并将其与已有文献和专家意见进行比较。这进一步降低了依赖不完整推理的风险。

我们还涉及知识产权问题:解决知识产权问题对于负责任地开发和使用 ChemCrow 等生成式人工智能模型至关重要。需要针对合成的化学结构和材料、其预期用途以及潜在的专利信息侵权问题制定明确的指导方针和政策。与法律专家和行业利益相关者合作有助于解决这些问题,并采取适当措施保护知识产权。

解决 ChemCrow 可能存在的不足,确保安全、负责任地应用是其成功的关键。整合专家工具、改进培训数据和实施有效的缓解策略,可以最大限度地提高对化工行业的积极影响,同时最大限度地降低风险。随着技术的发展,开发人员、用户和行业利益相关者之间的合作和警惕有助于应对新出现的风险和挑战,促进大规模语言模型驱动化学引擎领域负责任的创新和进步。

 

 

ChemCrow 使用 OpenAI 的 GPT-4 作为大规模语言模型。此外,还通过 LangChain 集成了外部工具。本文中使用的外部工具可根据需要和可用性轻松扩展,分为 "通用工具"、"分子工具 "和 "化学反应工具"。

首先,"网络搜索 "工具旨在从互联网上收集最新的相关信息。这是通过使用 SerpAPI 执行搜索查询并从谷歌搜索结果的第一页提取信息来实现的。通过这一过程,语言模型可以获得涵盖所有科学主题的最新信息。

其次,"LitSearch "工具专门用于从科学文献中提取信息。该工具可高效搜索科学论文等文档,并为问题提供准确可靠的答案。这是通过使用 OpenAI 的嵌入技术和 FAISS 向量数据库来搜索文档并生成相关段落的摘要来实现的。

Python REPL "工具也是 Langchain 的标准工具,它提供了直接在语言模型上编写和执行 Python 代码的能力。这使得从数值计算到数据分析和训练人工智能模型等各种任务的执行变得非常容易。

最后,"人类 "工具允许语言模型直接与人类互动并接收指令,从而实现更动态的问题解决。这样,人类的直觉和判断力就可以融入到解决问题的过程中,尤其是在遇到难题或不确定性较高的情况下。

他们还利用各种工具,在分子水平上进行分析和操作。这些工具可以解决研究人员面临的一系列挑战,从识别分子到评估市场价格和分析结构相似性。

Name2SMILES "工具可根据分子名称或 CAS 号码快速检索分子的 SMILES(简化分子输入行输入系统)表示法。这样就可以轻松参考各种分子,包括咖啡因和阿托伐他汀等常见和国际理论化学和应用化学联合会(IUPAC)名称,进行分子分析和操作。数据库搜索主要使用 chem-space,必要时辅以 PubChem 和 OPSIN。

Name2CAS "工具使用各种分子表示法(通用名称、IUPAC 名称、SMILES 字符串)识别化学文摘社(CAS)编号,利用 PubChem 数据库将分子转换为唯一的 CAS 编号,使研究人员能够轻松获取相关信息。使研究人员能够轻松获取相关信息。

SMILES2Price "工具将分子的SMILES表示法作为输入,评估分子的可负担性和市场最低价格。该过程使用 molbloom 在 ZINC20 数据库中检查分子的可负担性,并通过 chem-space API 提供市场价格信息。研究人员可以利用这一工具从经济角度选择最合适的分子。

分子相似性 "工具使用基于 ECFP2 分子指纹的 Tanimoto 相似性来评估两个分子之间的结构相似性,该相似性可量化分子之间的相似性,是探索药物发现和化学研究中潜在类似物的重要指标。

ModifyMol "工具旨在探索分子周围的化学空间并进行结构改造。在这一过程中,根据逆向和正向合成的原理,利用 50 种药物化学反应来扩大合成的可能性。特别是,SynSpace 软件包被用于从分子的 SMILES 表征中通过精细修饰推导出修饰后的分子。

PatentCheck "工具可快速检查分子是否已注册专利:它使用一个名为 molbloom87 的 C 库,通过 Bloom 过滤器评估分子的专利状态。该工具为避免知识产权冲突(尤其是在开发新化合物时)提供了重要的一步,有助于研究人员满怀信心地进行研究。

FuncGroups "工具旨在识别分子中的官能团。它将分子的 SMILES 表示法作为输入,并使用预定义的 SMARTS 模式来确认官能团的存在。这种分析为了解分子的反应性和特性提供了宝贵的见解,提高了科学研究和药物发现的效率。

SMILES2Weight "工具使用 RDKit 库根据输入的 SMILES 字符串精确计算分子的分子量。该信息是合成规划和表征阶段的重要指标,有助于分子设计过程。

这些工具加强了分子设计、分析和评估过程,帮助科学家更快、更有效地做出明智的决策。

此外,与开发 ChemCrow 等工具相关的最突出问题之一是安全性。我们提出的风险缓解策略之一,就是结合各种工具,利用大规模语言模型来评估所提议的分子、反应和程序的潜在风险。为了实现安全的研究环境,我们采用了三种安全工具

受控化学物质检查 "工具使用分子的 CAS 编号与专门列表进行核对,以预先识别被认定为化学武器或其前体的物质。当用户要求对特定分子进行合成方法或实验时,这种自动检查就会起作用,如果检测到相关危险物质,就会立即停止操作。这为用户提供了重要的安全信息,使其能够做出更安全的决定。

ExplosiveCheck "工具根据全球统一制度(GHS)确定分子是否具有爆炸性。它使用分子的通用名称、国际理论化学和应用化学联合会(IUPAC)名称或 CAS 编号搜索 PubChem 数据库,并在评估为 "爆炸性 "时确认其属性。在请求合成方法时,它会自动调用,并在必要时提供警告和错误信息,以帮助用户做出正确的安全决定。

安全摘要"(SafetySummary)工具可为任何分子提供全面的安全摘要。 该工具可确定四个关键方面:操作安全、全球统一制度(GHS)信息、环境风险和社会影响。界面,全面介绍安全信息。在信息缺失的地方,GPT-4 会进行补充,明确指出缺口,以便用户获得完整且易于获取的安全数据。

通过这些工具,ChemCrow 提高了安全性。此外,ChemCrow 还使用 "化学反应工具 "来识别、预测、规划甚至执行化学反应。

NextMove 软件公司的 "NameRxn "工具利用广泛的命名反应数据库对化学反应进行识别和分类。只需输入反应式的 SMILES 格式,即可获得反应名称及其分类代码,从而有助于了解反应机理和优化实验条件。

ReactionPredict "工具使用了 IBM 研究院的 RXN4Chemistry API,能高精度地预测反应物的生成物。该工具使用一个变压器模型,专门用于预测化学反应和逆向合成路径,模仿化学家进行的抽象推理。

ReactionPlanner "工具是一种用于规划多步骤合成过程的工具:它基于 RXN4Chemistry API,可将反应序列转换为机器可解释的操作,并将其重新转换为自然语言。该工具在设计合成相关化合物的高效途径方面发挥着重要作用。

ReactionExecute "通过ChemCrow与机器人化学实验室直接合作,以物理方式执行计划的合成。整个过程包括从请求合成计划到机器人执行计划,以及在执行过程中适应错误和警告。最后,合成在用户授权后启动,并在成功后返回确认信息。

这些工具简化了从了解反应到运行实验的整个过程。

 

本文中进行的实验也可通过 GitHub访问。ChemCrow 平台的开源版本也已发布。 您可以访问 ChemCrow 平台的实验设置和详细信息,并将其用于自己的项目和研究。这有望进一步促进化学反应预测、规划和执行方面的高级研究与开发。

posted on 2025-05-15 10:44  lcs-帅  阅读(345)  评论(0)    收藏  举报

导航