EMR与自然语言处理相关几个问题的总结

一，国内外EMR应用情况

近年来，EMR作为医疗信息化的一个重点方向，在国内外均有很大的发展，以下分别以美国和日本为例，简单介绍下国内外EMR的应用状况。

美国的情况：

美国在电子病历相关的模型与理论等多个方面均完成了大量工作，同时，结合美国的卫生管理部门对于医药行业存在问题的分析，美国的电子病历系统建设具有十分明显的针对性，所建设的系统一定要立足于解决在医疗实践中切实存在的错误与问题。

美国著名的HIMSS首先将电子病历(EMR)划分为临床数据存储库（CDR）、临床决策支持系统（CDSS）、受控医学词汇表(CMV)、计算机支持医院医嘱系统（CPOE）、药品管理系统、以及临床文档应用程序等若干个部分，然后结合其他医疗信息系统的建设过程，将EMR的建设分成了如下8个阶段：

阶段0：药品管理系统、LIS（检验科信息系统）、RIS（放射科信息系统）三大主要临床辅助系统没有建立；

阶段1：药品管理系统、LIS、RIS三大主要临床辅助系统实现；

阶段2：主要临床辅助系统提供数据给CDR以便医师重新得到或回顾结果，CDR包括了一个受限医学词汇表和临床决策支持/规则引擎。这个阶段CDR可以链接来自影像系统的信息；

阶段3：护理系统、图表、治疗计划和电子药物管理系统（eMAR）已经实现并和CDR结合。临床决策支持的第一个水平是实现对医嘱录入的操作错误检查（如药物/药物、药物/食品、药物/检查冲突检查）。PACS（医学影像系统）的接口能让医师通过组织内部网络访问相关的医学图像；

阶段4：护理和CDR环境中增加了供任何临床医师使用的CPOE，同时实现了涉及到基于医学协议的第二水平临床决策支持；

阶段5：全跟踪药物治疗管理环境完全实现，eMAR和条形码以及其它自动标识技术（如 RFID）已实现，并与CPOE及药物系统结合在一起，在药物管理上实现患者卫生保健过程中安全的最大化；

阶段6：实现上面提到的完全的医疗文档/图表。第三水平的临床决系统和临床医生诊疗行为的向导。这些向导与以变化的及依从性的警报形式提供的协议和成果相关。一个完全功能的PACS系统在内部网络内向医师提供医学图像，取代了所有胶片图像；

阶段7：临床信息能够与在一个区域卫生网络中所有的实体（如其它医院、门诊部、急救中心、雇主，付款人和患者）经过电子事务或交换电子记录方式方便地共享。医学记录完全电子化/无纸化。这个阶段允许医疗机构支持真正的EHR；

上述各阶段的划分，是和美国医疗行业现状有密切的关系，根据美国医学研究所与疾控中心的一份统计报告，医疗处置不当或错误近年来一直排在美国人死因的前十位，排名高于多种常见疾病，人数初步估算在48，000到96，000之间，而此类错误中，绝大部分是药品使用错误。

同时，美国医学研究所认为，在每年发生的几百万件医疗错误中，有相当比例可预防。

在上述基本共识的基础上，美国电子病历建设的第一阶段就是要构建药品管理系统，重点防范药品使用错误，然后在第二阶段对临床辅助系统进行建设，以获得客观准确的数据来支持更准确的决策，然后在后续的阶段当中，对医疗操作的过程与文档信息两个方面进行信息化的建设与完善工作，真正提高医疗质量。

HIMSS曾经对美国的5000多家医院进行了评分，0-2阶段的占70%以上，到达第6阶段的为1%左右，3-5阶段的大约在20%，大部分医院的信息化水平基本处于第3阶段。

同时，美国电子病历在建设过程中，结合美国医疗界公私结合，注重规范与效率等特征，十分注意信息化建设的实效，故此，形成了传统手工流程与信息化流程相结合，科室与全院相结合，使用电子病历与不使用电子病历人员相结合的复杂局面。

此外，由于美国医疗系统制度的不统一，且各地医院发展不均衡，所要解决的问题与阶段存在差异，造成了在诸多大型医院内部系统数量大，客观上促进了集成与相关标准的发展。

一个基于IHE组织定义的医院系统集成实例示意图

日本的情况：

日本2006年的IT新改革战略中，涉及到医疗的部分，将日本的医疗信息化建设分为如下5步目标：

1，制定医疗卫生全面发展规划

有效地促进医疗，健康，护理，福利各方面的系统信息化；

2，进一步推动医疗信息系统的发展

进一步普及电子病历等医疗信息系统，提高医疗服务质量，保证医疗安全，促进各医疗机关间的相互合作；

3，促进远程医疗

促进远程医疗，消除地区间医疗服务水平的差距，同时，利用数字电视等手段，实现紧急救援时对病人的指导；

4，构建国民健康数据库与应用服务平台

到2010年，构建国民健康信息数据库和能充分利用该数据库的应用服务平台，让国民也能把握自己的健康状况，努力促进国民的健康；

5，实现医疗结算全面OnLine

计划于2011年，实现医疗结算的全面OnLine化，削减医疗保险成本，建立结算数据库，推进疾病预防的发展，并推动国民医疗费用合理化；

其中的第二个阶段，电子病历是发展的重点。

日本目前电子病历的建设高度突出了多个系统与功能进行集成的特征，在不同角色的工作站中，将患者信息管理，医嘱与临床处置，临床路径，决策支持等几个方面的功能实现了很好的集成。

多种资料表明，由于日本国内医疗服务的高标准要求，促成了日本的电子病历系统在细节处理与人性化设计方面的明显优势。

二，EMR主要涉及的技术及其发展

目前，电子病历的实现所涉及的几个关键技术问题有：

Ø 结构化处理方式

Ø 编辑工具

Ø 存储方式

Ø 系统集成

1，结构化处理方式

电子病历的首要职能是作为医疗过程的一种记录形式而存在，而为了能够在医疗过程中提供安全可靠的信息，为临床人员提供信息资源，对个体或群体患者制定科学的医疗计划，并为公共卫生方面的工作提供支持等，必须将文档的理解层级由人工可识别，过渡到计算机可识别，直到计算机可处理，为实现这个目标，病历内容的结构化显然是必须要完成的工作。

以下，我们从现有病历的基本结构模型，结构化的几种主要实现方式，以及优缺点等几个方面，综合了解下目前有关病历结构化处理工作的进展：

（1）病历的结构模型

在电子病历出现以前，临床病历几乎完全以自然语言进行描述。一个典型的模型是POMR，目前国内常见的病历结构，基本是POMR思想指导下的SOAP描述方式：

S-Subjective：主观内容，可以近似认为是主诉与现病史

O-Objective：客观内容，体现在辅助检查

A-Assessment：评估性的内容，可以认为诊断是属于这类

P-Plan：计划，诊疗计划属于这个范围

但是，毫无疑问，结构化到这种程度，远远不能满足从电子病历挖掘医疗规律，支持循证医学与临床科研等工作的要求。

（2）结构化的几种主要实现方式与优缺点

目前，结构化的实现方式多种多样，但实际总结起来，其技术思想基本是两大类：SDE与MLP。

SDE（结构化数据录入）的方式：是目前可以实现极高程度结构化的一种数据采集方式，通过软件上的菜单，选项框等各种控件，结合一定的医学智能判断，实现在预定模板范围内的信息100%准确获取，国外代表产品系列为OpenSDE。

SDE的操作方式最大的优点是能够完整准确的获得临床信息；缺点则是由于将受控词汇原封不动的表现在前端，使得临床医生操作极为不便，在效率和灵活性上有明显的缺陷。

MLP（医学语言处理）的方式：则是尊重临床人员采用自然语言描述病历的习惯，在自然语言描述的内容基础上，通过预定义的术语集来实现信息的获取等工作。

MLP方式的优点是与几乎完全继承了医务人员以往的工作习惯，操作简便，学习曲线平滑；缺点则是现有的自然语言处理技术准确性不足，在某些场景下尚不能达到医疗工作的需要。

目前，针对上述问题的解决方案，一般从如下两个方向进行考虑：

融合：将SDE与MLP两种方式进行结合

这种思路指导下的典型例子，是目前国内普遍出现的在“所见即所得”编辑器基础上的受控词汇嵌入自然语言的模板，通过直观的编辑工具，结合具体的临床科室，将病历内容尽可能采用自然方式展现出来，同时，对其中有临床科研与其他数据利用价值的词汇进行结构化处理，两类数据并存于整个文档中，结构化的数据类似于一种镶嵌方式存在；当数据利用时，就可以从同一个病历文档中，获得多方面的数据。

这种融合的思路最大的优势是通过临床工作的严肃性保证了数据的准确，同时也能够一定程度的解决SDE与MLP的矛盾，目前面临的主要问题是，在不同的临床科室内，是否能定制出对多个病种足够适应的模板；以及在不同的科研与数据利用要求下，是否可能通过一个模板来满足多个不同角度与科研与数据利用的要求。

目前，国内推出的《电子病历架构与数据标准》，提出了临床文档-文档段-数据组-数据元的四级概念，其核心思想是将病历内容逐层的进行结构化处理，对电子病历的技术实现，具有很高的指导意义。

分立：从实际需求出发，在不同的业务场景下扬长避短，有针对性的发挥SDE与MLP两种方式各自的优势。

目前，这种思路也有相当比例的市场，比如，从医疗工作的要求来看，某些需要获取的信息比较简练，且操作时间要求高，则可以将需要采集的内容固化到软件界面上，定制为高度简洁的SDE式窗口，临床医疗工作者只需要简单的点选与操作，即可完成必要的数据采集；而对于病历文档这种自然语言特征明显的内容，则结合机器自动处理与人工标注，实现数据利用的需要。

（3）可能的几个突破方向

通过上述的比较，已经可以看出，在SDE与MLP两种方式存在融合与分立的现状，技术上可能的几个突破方向，无非是以下几种：

基于多维术语集的智能模板：

不论是SDE还是MLP，首先均需要标准化的术语集支持，在此基础上，方可以定义诸如医疗行为索引，医疗行为关系及相应字典等构成临床数据中心的基础设施。

在标准化术语集存在后，为解决自然语言描述与受控结构化描述之间的矛盾，可基于多维术语集智能模板来实现高命中率的模板，如根据患者的基本信息，初步印象，关键检查与检验，重要症状与体征，生成与临床医生期望较为接近的模板。

自然语言处理（尤其是中文）技术的发展：

病历中的检验与医疗处置类信息一般已经高度结构化，要提高信息利用率，首先要解决的问题是多系统数据的集成，但对于病史类文字，则可能要寄希望于自然语言处理技术（尤其是中文分词技术）的进一步发展，这种在后期结构化的方式最大的优点在于可以将原始文档几乎完全独立，完全根据自然语言处理的发展程度来进行数据利用工作。

2，编辑工具

目前，电子病历的编辑工具是电子病历系统实现的基础性构件，通过编辑器，可以反映出一个电子病历系统的数据架构，对结构化的处理程度等多方面的设计水平。

电子病历的编辑工具可根据是否所见即所得与是否结构化，分为如下几类：

（1）SDE式编辑工具

与这种编辑工具最接近的医疗概念，是表格病历。

严格来说，这种编辑工具并不能成为完整的电子病历编辑器，因为其仅仅是通过界面的方式，完成了一定的信息采集工作，诸如排版，文本格式处理等一系列功能，均需要额外提供排版工具来进行处理。

一些优秀的SDE编辑器，可以一定程度上适应不同科室的要求，实现前后文选择控件内容之间的关系，体现一定的医疗逻辑，故目前这种编辑工具还是有一定比例的市场。

目前，此类编辑器的技术实现，大多是采用Windows环境下的开发工具，如PB，Delphi，VB或VC#等，将多个控件组合成为科室模板，同时将每个控件所代表的医疗信息内置于模板中，在每个科室调用时，根据所选择的控件值所反映出的医疗关系，对整个界面上的控件布局进行控制，以体现医疗逻辑与流程。

（2）“所见即所得”的自由文本编辑器

此类编辑器功能一般较为简单，对结构化涉及较少，多为直接调用相对成熟的文本编辑组件，如MS Word，同时进行简单的结构划分，如主诉，现病史级别的划分。

对于这种编辑器，如果要进行病历内容结构化的工作，则只能采用自然语言处理的技术。

（3）“所见即所得”的结构化病历编辑器

顾名思义，这种编辑器是将文本编辑功能与结构化的设计融合在一起，既能对文本进行常规排版，同时还可以在其中体现出对病历结构化的编辑。

此类编辑器的设计初衷，大多是要充分照顾自然语言输入的习惯，并在编辑的同时，直接完成结构化词汇的生成，完成对病历数据利用的准备。

从技术角度来看，这种编辑器的设计思路是较为先进的，但最大的不足是实现难度较大，目前业内普遍认为，此类编辑器从开发到成熟，平均需要5-6年的时间。

目前，这种编辑器由于要直接处理复杂的内容节点，通常与xml技术相结合。

3，存储方式

首先，xml技术由于其自解释，实现多级对象节点方便，文档类型定义与文档内容可分离等多种特性，已经成为电子病历领域文档实体的事实标准。

目前，电子病历内容具体的存储方式可以简单的归结为如下几类：

（1）基于关系型数据库

目前，鉴于关系型数据库占据了相当高的市场份额，故基于关系型的数据库存储也成为电子病历市场的主流选择，具体的实现，一般有字段存储+应用期组合，xml作为对象存储，xml原生存储等三种方式：

字段存储+应用期组合

这种方式是对病历的结构进行拆解，然后存入数据库的字段，在应用层调用时，通过对各个数据字段的组合，生成逻辑上的xml文档供应用层使用。

此方式最大的优点在于某些简单的数据利用要求出现时，可以充分利用传统关系型数据库的优势，提供极好的性能，但缺点则是由于对复杂的数据操作一律要在客户端处理，故技术实现较为繁琐，运行效率也容易受到限制。

xml与数据库字段的关系图

xml作为对象存储

这种方式通常结合了数据库系统对xml的存储支持，目前业内主流的数据库系统均支持将xml作为BLOB字段进行存储

此种方式，将病历文档进行大粒度的分解后，直接以xml方式存储于数据库的BLOB字段中，同时，为了某些简单的数据检索等需要，通常会在存储该xml文档时，将该文档中一些常用的数据直接存储在数据字段中。

xml原生存储

xml原生存储的方式是伴随着数据库对xml的存储技术不断进步而产生的，某些数据库系统软件针对xml的特征设计存储结构，可以在整体存储xml文档的同时，还可以高效的实现对xml内部详细信息的检索。

该方式目前最大的缺陷，是所提供的检索技术对现有的粗细结合粒度的xml文档检索能力有限。

（2）基于后关系型数据库

以Cache为代表的数据库系统软件，在其内部实现了强大的面向对象功能，可以实现诸如无穷分级这样的特殊功能，但由于在国内市场份额不高，技术支持相对较少等原因，前景不甚明朗。

（3）文件服务与数据库相结合

某些较早期的电子病历系统中，有些是将病历文件直接存储于文档服务器上，然后在提交或归档时，存储于数据库中，该方式同样存在客户端压力较大的问题，今后应当会逐渐被替代。

4，系统集成

电子病历的一个重要功能是实现临床信息集成，向临床医疗工作者全面展示相关信息，但由于电子病历的各周边系统建设程度参差不齐，且起始阶段就无统一标准，而随着实际应用的逐渐深入，一线使用者对集成的要求与日俱增，为解决此类问题，美国提出了诸如HL7，DICOM等一系列标准。

目前，国内的各个系统集成过程中，对于较为简单的集成要求，直接采用界面集成的方法；对于若干系统之间的数据通信，往往是双方约定数据库的读写范围，直接在数据库层面进行数据集成。

但是，当一个医疗单位的信息化系统数量达到一定程度之后，上述方式的问题立即凸显，随着系统的增多，需要集成的工作量呈平方增长关系。

通过对此类情况的处理，国内某些医疗单位与公司在信息集成方面也总结了比较丰富的经验，选择性的使用HL7等国际标准，通过Web Services与MQ等技术手段，也积累了一定的成熟案例。

三，自然语言处理技术在医疗领域的应用现状及趋势

按照维基百科上的介绍，自然语言处理的关键技术基本涵盖如下方面：

文本朗读与语音合成，语音识别，中文分词，词性标注，句法分析，自然语言生成，文本分类，信息检索，信息抽取，文字校对，问答系统，机器翻译，自动摘要。

其中，中文分词与信息检索及信息抽取，是自然语言处理技术的重要问题，在医疗领域应用也主要集中于这几个方面，因信息检索与抽取等技术相对比较成熟，本文的讨论将主要集中于其中的中文分词。

目前的中文分词，一般有三大类

（1）基于词典的分词：一般将需要处理的文档与词典中的词汇进行匹配，在匹配过程中，根据优先匹配长度的不同，有最大与最小匹配算法；而根据扫描方向的差别，又可分为正向匹配和逆向匹配算法，以及将正反两个方向相结合的双向匹配法。

从精度来看，在上述几种方法当中，逆向匹配略高于正向匹配，但目前已有的此类算法错误率依然导致精度不能满足实际使用的需要，所以在实际使用时，大多是将基于词典的方法作为分词第一步工作，然后结合其他方法进一步处理。

具体改进的方式，大概有如下几种，结合分类特征表示的优化，结合词性标注的优化，以及后续加以其他分词手段（如基于统计语言模型）的处理。

目前，主要基于词典的分词方法，一般用于简单的医疗文档处理，如检查报告，或者病历文档中的文档段级别，如手术记录，并在此基础上结合一定的人工判断与加工，这种应用的发展是得益于此类文档一般结构相对固定，同时词汇集合数量比较小，术语描述受控程度较高。

通过目前应用的现状也验证了一个基本事实：术语词典的完善与精确程度对分词的准确度有十分重大的影响。

（2）基于统计的分词：基于统计的分词方法近年来由于机器学习等技术的发展也日渐成熟，这种分词方法的一个基本前提是：词汇是由字组成的，然后通过组合出现的概率来判断是否某个短字符串是否是一个词，判断概率时，将各个字在文档中出现的概率相乘：

P(S) = P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1)

单纯使用这种分词方法时最常见的缺陷是只顾频率，忽视实际意义，比如可能会分出很多“之一”“我的”等常用但意义不大的词汇，为弥补此缺陷，通常会结合基于词典的分词来处理。

基于统计的分词另一个重要的实现方式是采用机器学习的方法，准备好一套已经预先分词完毕的预料，通过机器学习的模型去学习分词的规律，然后利用抽象出的规律对新的文本进行分词。

目前，基于统计的分词对于同义词的处理有较好的效果，通常与其他分词方式结合使用，但由于实现的技术难度较高，目前在医疗实践中尚未广泛应用。

（3）基于规则与理解的分词：这种分词方法的理论基础是构造在汉语词法分析基础上的，有报道称采用层叠隐马尔可夫模型进行处理，也取得了较好的效果。

这种分词方法在进行词法分析的阶段，综合考虑长度，平均长度，自由语素度以及各种过滤器，如布隆过滤器。

此类分词引擎的实现技术难度相当高，目前，国内这方面最成熟的成果是ICTCLAS。

综上，三种分词方法可以从多个方面进行个对比，如下表：

三种分词方法的优劣对比

分词方法	基于字符串匹配分词	基于理解的分词	基于统计的分词
歧义识别	差	强	强
新词识别	差	强	强
需要词典	需要	不需要	不需要
需要语料库	否	否	是
需要规则库	否	是	否
算法复杂性	容易	很难	一般
技术成熟度	成熟	不成熟	成熟
实施难度	容易	很难	一般
分词准确性	一般	准确	较准
分词速度	快	慢	一般

目前，中文分词在实践中的最大难点在歧义的处理和特殊词识别。

歧义的识别，基于统计与规则的方法都能进行一定程度的处理，不过考虑到医疗的文字描述准确性的要求，更多的应当首先在文档的生成过程中尽可能消除歧义。

对于特殊词识别，基于词典的处理方式是不可能处理的，鉴于新词的生成也是很大程度上符合既往规则的产物，故对于新词识别，可优先考虑基于理解的分词方法。

四，自然语言处理技术在EMR中的实现要点

目前的医疗文档（尤其是病历）绝大部分是以自然语言描述，大量已发现与未发现的信息存在于现有的医疗文档中，不论是临床医学还是基础生物医学，都对于现有文档的信息处理与知识发现提出很高要求，自然语言处理，尤其是中文分词的发展，毫无疑问会极大程度的为这些工作提供帮助。

但是，考虑到汉语本身的复杂性，完成此工作，必须要从中文分词以及自然语言处理的基础理论，医学模型以及软件工程实践等多个方面综合考虑，才有实现并逐步进行完善的可能。

简单的说，使用自然语言的相关成果，为医疗领域的信息化（尤其是EMR）建设服务时，可以优先考虑从如下几个方面入手：

1，半自动中文分词

目前，由于病历相关的术语集过于复杂与理论化，在实际用于临床时，合适的裁剪模型尚不成熟，所以可以考虑机器自动分词加上人工的方式来处理。

具体操作时，可以在某个研究项目开展时，选择性的对某些文档先进行机器自动化分词处理，这样即使存在某些分词不准确导致案例遗漏的情况，也可以通过适当扩大样本量来补充；在机器自动处理完成后，进行一定的人工审核与数据完善，并进行记录，最终将处理后的数据作为研究的信息来源。

通过上述处理步骤后，可进行进一步的检索与分析工作。

此类方式的核心在于通过不断提高机器自动分词的准确度与速度，减少扩大的样本量与人工处理的工作量。

2，自然语言生成

鉴于医疗当中存在某些表格病历类似的情况，可以在某些医疗单据通过点选的方式，确定关键信息，然后生成符合医疗规范要求的自然语言，由人工进行一定的修改完善后，作为最终的医疗文档。

3，小范围搜索引擎的构建

对于常见病的经典病历，以及某些诊疗指南与临床证据，可以构建科室级以及院级的搜索引擎，综合使用自动标注、中文分词加信息检索的技术，随时提炼各类信息供临床医疗工作者使用。

上述各类应用的技术难点，在于如下几个关键的设施是否足够完善：

1，可根据需要进行简化以适应临床工作的术语集

高度可用的术语集是分词与分类等一系列工作的基础，关键在于如何在实践中找到合理的筛选标准，将现有的高度规范的术语集工作与临床的具体实践相结合后，可以既照顾临床工作的方便，又能保证生成数据与规范术语的对应。

2，结合医学规则的中文分词算法

基于规则的中文分词算法在现有的分词算法当中属于技术难度较高者，一个重要的原因是汉语的词汇全集十分复杂，但医学的词汇集合具有“较有限”“相对规范”等特点，故可以将医疗逻辑作为一个规则库不断的进行丰富，同时结合词典分词与统计分词，提高医学中文分词算法的精度与速度。

3，大数据量的存储与多系统集成技术

进行完善的医疗研究与临床工作，往往需要多方面的数据进行支持，且电子病历在实际工作中产生的数据量是比较大的，已有证据表明，电子病历所产生的数据量在各医疗信息系统中几乎一直排名前三。

在这样的背景下，需要引起注意的是随着数据应用要求的不断提高，大量数据的存储架构上的调整，以及如何将多个系统进行集成，综合利用各个系统的数据为医学实践服务。

posted on 2011-07-21 21:17 九桔猫阅读(3195) 评论(3) 收藏举报

刷新页面返回顶部

九桔猫--广纳百川，服务世界(专业思考与实践者)

公告

EMR与自然语言处理相关几个问题的总结