利用自然语言处理验证自杀风险评估工具的可行性研究

引言

自杀风险评估是重度精神疾病患者护理的核心。然而,评估方式不一,缺乏广泛认可的标准。临床实践中使用了大量结构化工具,但其质量参差不齐。牛津精神疾病与自杀工具(OxMIS)是为精神分裂症谱系和双相情感障碍患者开发的最新临床预测工具,该方法学质量较高,包含17个预测变量,并提供在线风险计算器。OxMIS面临的主要挑战之一是在开发研究人群之外进行外部验证。电子健康记录为此提供了可能,但其包含大量非结构化文本信息,提取困难。

方法

本研究分为两个部分,旨在检验使用常规收集的电子健康记录对OxMIS进行外部验证的可行性。

  • 研究1:手动计算风险评分: 从某机构的电子健康记录系统中,随机选取57名重度精神疾病患者,手动审查其临床记录,提取OxMIS所需的17个预测变量,并使用在线计算器估算其一年内的自杀风险。
  • 研究2:开发NLP模型进行变量提取: 研究重点是利用自然语言处理技术,从某研究数据库的匿名临床文本中,自动化提取OxMIS所需的变量。我们构建了一个基于神经网络的命名实体识别模型,用于识别与八个核心概念相关的文本片段,这些概念覆盖了九个存储在自由文本中的OxMIS变量。

NLP模型设计与评估

  1. 概念定义:定义了八个核心概念:药物使用、暴力、教育、自伤、福利领取、药物/酒精使用障碍、自杀、精神病住院。
  2. 训练数据:通过关键词匹配,从大量临床文档中筛选出信息最丰富的318份文档,并由研究人员手动进行标注,形成“金标准”训练数据集。
  3. 模型训练与优化:使用标注数据训练NER模型,并采用主动学习工具进行迭代微调,以提升模型性能。
  4. 性能评估:通过精确度、召回率和F1分数来评估模型在识别各个概念方面的表现。

结果

  • 研究1: 在57名患者中,13个OxMIS变量在所有记录中均无缺失。其余4个变量(最高教育程度、父母药物/酒精使用障碍、领取福利、父母精神病住院)在少数记录中缺失。根据提取的变量,所有患者的一年自杀风险均被成功估算,中位风险为0.5-0.7%,范围在0.1%至3.4%之间。
  • 研究2: 开发的命名实体识别模型在测试集上总体表现良好:精确度为0.77,召回率为0.90,F1分数为0.83。其中,识别“药物使用”概念的表现最佳(精确度0.84,召回率0.96),而“自杀”和“药物/酒精使用障碍”概念的提取相对更具挑战性。

讨论

本研究表明,利用临床记录手动计算OxMIS风险评分是可行的,且大多数变量已在常规临床评估中收集。更重要的是,通过命名实体识别等自然语言处理技术,可以从电子健康记录的自由文本中规模化提取相关风险因素,这为利用大规模真实世界数据进行外部验证奠定了基础。

然而,研究也揭示了挑战:电子健康记录中的数据与人口登记数据存在差异,特别是在家庭史变量方面;部分变量(如教育水平)在文本中的表述方式多样,增加了NLP模型提取的难度;低频提及的变量(如父母自杀史)需要更多的标注数据来训练模型。

结论

这项可行性研究证实,临床医生常规记录了用于自杀风险预测的OxMIS工具所需的预测因子,并且基于临床记录估算自杀风险是可行的。尽管许多信息记录在自由文本中,但我们开发的命名实体识别模型在提取多个关键概念方面表现出良好性能。这表明自然语言处理方法有助于利用电子健康记录研究自杀预测因子,可应用于风险预测工具的外部验证和开发。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

posted @ 2025-12-23 17:16  CodeShare  阅读(1)  评论(0)    收藏  举报