《Natural language processing systems for capturing and standardizing unstructured clinical information A systematic review》系统综述分析总结
《Natural language processing systems for capturing and standardizing unstructured clinical information A systematic review》系统综述分析总结
研究主题: 临床自然语言处理(NLP)系统在非结构化临床文本中提取结构化信息(SDC)的应用现状。
研究驱动力: 美国 FDA 和 CDC 联合发起的“临床 NLP 网络服务平台”项目,本综述为其开发项目的第一步。
1. 文章结构与内容提要
| 章节 | 核心目标 | 关键信息 |
|---|---|---|
| 引言 (Introduction) | 阐述临床数据结构化的重要性、挑战和研究动机。 | 临床文本(EHRs、不良事件报告)非结构化导致专家审查耗时且阻碍大规模数据二次使用。FDA/CDC 合作项目是研究的直接背景。 |
| 方法 (Methods) | 详细描述系统综述的步骤和标准,确保严谨性。 | 遵循 PRISMA 标准。分为四大阶段(检索、初筛、全文本审查、信息收集)。设定了严格的纳入和排除标准。 |
| 结果 (Results) | 报告检索和筛选统计数据,并对纳入的系统进行初步分析。 | 检索 7149 条记录,最终纳入 86 篇论文,涉及 71 个独立的 NLP 系统。报告了 NLP 方法、输入文本和可用性数据。 |
| 讨论 (Discussion) | 解释结果,讨论领域的开放挑战、局限性,并指导 FDA/CDC 平台的未来开发。 | 确认时间信息提取和概念规范化是领域瓶颈;否定“一刀切”解决方案;提出模块化平台策略。 |
| 利益冲突/资金 | 声明研究的客观性和支持来源。 | 无利益冲突。资金来自“以患者为中心的结局研究信托基金”。 |
2. 核心方法 (Key Methodology)
- 方法论框架: 严格遵循 PRISMA(Preferred Reporting Items for Systematic Reviews and Meta-Analyses) 指南,确保综述的系统性和透明度。
- 检索范围: 7 个数据库(包括 PubMed, Embase, Web of Science 等)和国防部技术中心,时间范围为 2006 年 1 月 1 日至 2016 年 6 月 15 日。
- 检索重点: 检索查询使用 “NLP” AND “SDC”/“CDE” 强行组合,将结果聚焦于**结构化数据捕获(SDC)**任务。
- 筛选过程: 采用双审稿人独立筛选,并由裁决者解决分歧,以保证客观性。
- 纳入标准: 必须是完整的、已发表且正在使用的 NLP 解决方案,能够将临床文本编码为标准化的临床术语并捕获通用数据元素(SDC)。
- 排除标准: 排除仅进行关键词提取等有限任务的系统、需要人工分配代码或手动预处理的非全自动化系统。
3. 主要结论与重要发现
- 方法学现状: 在 2016 年之前,基于规则 (Rule-based) 的 NLP 方法是主流 (N=33),其次是混合系统 (N=19)。纯粹的机器学习方法较少 (N=4)。
- 系统焦点: 纳入的 71 个系统大多具有狭窄而特定的焦点,如提取药物剂量信息或癌症分期。这表明不存在“一刀切”的通用解决方案。
- 已解决任务: 对于一些简单任务,尤其是提取数字或简单实体,基于规则的方法表现可接受。
- 开放挑战(领域瓶颈): 综述明确指出,现有系统在以下两大任务上存在重大缺陷,是未来需要投入资源解决的难点:
- 时间信息提取 (Temporal Information Extraction): 识别临床事件发生的精确时间关联。
- 概念规范化 (Concept Normalization): 将文本中的概念完整、准确地编码到标准术语集(如 UMLS/SNOMED CT)。
- 平台指导: FDA/CDC 平台的开发策略应是构建一个多功能平台,包含针对特定任务的管道 (pipelines),重点解决上述开放挑战,并集成现有成熟的开源组件。
4. 研究的不足之处 (Limitations)
- 检索范围受限: 为了控制检索结果数量(单独搜索 NLP 会返回超过 90,000 条记录),研究人员通过结合 “AND SDC” 限制了检索,可能导致遗漏了一些相关的 NLP 系统。
- 信息缺失严重 (High Missingness): 许多已发表论文对系统描述不完整。特别是关于系统可用性、许可模式和性能评估细节的信息缺失率高(系统可用性缺失率高达 69.0%),这给实际采用现有系统带来了困难。
- 引用计数不足: 引用数据来源单一(Web of Science/Google Scholar),未能提供全面的影响力评估。
- 时效性挑战: 临床 NLP 领域发展迅速,文献综述难以跟上在线代码仓库和持续挑战赛中出现的最新系统。
5. 专有名词与专业词汇 (Key Terminology)
| 术语 | 英文全称/缩写 | 中文解释 |
|---|---|---|
| SDC | Structured Data Capture | 结构化数据捕获。指将非结构化文本中的信息,自动转化为规范化的、可用于数据库存储和查询的结构化数据。 |
| CDE | Common Data Element | 通用数据元素。指在不同临床研究或系统之间共享和使用的标准化数据字段,如“年龄”、“性别”等。 |
| NLP | Natural Language Processing | 自然语言处理。计算机科学的一个分支,使计算机能够理解、解释和生成人类语言。 |
| PRISMA | Preferred Reporting Items for Systematic Reviews and Meta-Analyses | 系统综述和元分析优先报告项目。指导如何系统、透明地报告系统综述的方法论标准。 |
| EHR | Electronic Health Record | 电子健康记录。患者的数字化医疗档案,通常包含大量的自由文本(如医生笔记、放射报告)。 |
| UMLS | Unified Medical Language System | 统一医学语言系统。美国国家医学图书馆提供的医学术语、分类和编码系统的集成。 |
| SNOMED CT | Systematized Nomenclature of Medicine Clinical Terms | 医学系统命名法临床术语集。国际上最全面、最常用的临床术语集之一,用于描述临床概念和实体。 |
| FDA | US Food and Drug Administration | 美国食品药品监督管理局。美国的最高医疗监管机构。 |
| CDC | Centers for Disease Control and Prevention | 美国疾病控制与预防中心。美国的国家公共卫生机构。 |
| i2b2 | Informatics for Integrating Biology & the Bedside | 生物学与临床整合信息学。著名的临床 NLP 社区挑战赛组织者。 |
| GATE/UIMA | General Architecture for Text Engineering / Unstructured Information Management Architecture | 文本工程通用架构 / 非结构化信息管理架构。常见的 NLP 软件框架,用于构建文本处理管道。 |

浙公网安备 33010602011771号