医疗数据湖服务解析:机器学习驱动的健康数据分析
在近日举行的re:Invent 2020机器学习主题演讲中,某中心人工智能副总裁宣布推出符合HIPAA标准的医疗数据湖服务。该服务旨在帮助医疗机构、健康保险公司和制药公司在云中存储、转换、查询和分析达到PB级别的健康数据。
这项新服务使客户能够利用机器学习发现健康数据中的趋势和异常,从而为个体患者及整个人群提供更精准的护理。该服务的核心开发者之一——某中心机器学习总监(同时拥有医学博士和生物信息学硕士学位)表示,作为医生和生物信息学家,他在过去二十年中一直致力于为客户创新,并在医疗保健、生命科学、精准医学和人工智能领域开创先河。
从被动到主动:医疗体系的转型
该服务首先允许医疗和生命科学客户将先前以多种格式存储在各个数据孤岛中的分散健康信息整合到一个安全的数据湖中,并由客户完全掌控。新兴的开放标准(如Fast Healthcare Interoperability Resources, FHIR)旨在通过提供一致格式来描述和交换跨系统结构化数据来解决这一挑战。然而,大部分数据是非结构化信息,如临床笔记、PDF实验室报告、保险索赔、X光和MRI图像、录音对话、心电图或脑电图轨迹等,这意味着数据需要被提取和转换后才能进行搜索和分析。
该服务以FHIR V4格式摄取数据,随后对这些信息进行标准化处理,并标记日期和任何关键事件描述(如药物、程序、诊断),涵盖患者整个健康历史中的每一次就诊。然后对所有信息建立索引以便后续搜索。现在,您可以获得个体患者历史的完整视图,其粒度水平使您能够应用高级分析或使用新的机器学习模型对所有数据(而不仅仅是子集)预测一系列有趣的事情。
例如,目前最广泛使用的临床模型预测某人疾病风险时可能仅使用20或30个数据点(如心脏病发作或心力衰竭的风险)。然而,如果您查看个人的医疗记录,可能至少有25万到30万个数据点,包括他们的医疗笔记。目前这些数据都没有用于管理患者或预测他们的结果。因此,相信能够读取某人的完整医疗历史将带来更好的临床决策,医疗保健提供者现在可以从这些先前未开发的信息中发现整个人群的趋势和见解。
核心技术优势
该服务的核心能力在于能够在安全的数据湖中创建全面的数据集,这些数据集可以按不同属性进行组织,然后通过高级分析和机器学习进行查询和分析。这种搜索和应用高级分析的能力,或通过机器学习模型预测潜在疾病结果(包括医疗利用指标或成本)非常强大。好处是现在您可以比以往更早地进行预测,或快速干预以改善护理并降低成本。
另一个好处是您现在可以通过基于标准的API访问所有这些信息,允许您(在患者同意的情况下)在健康系统之间以及与流行的第三方应用程序、分析平台等共享这些数据。提供者可以更有效地协作,患者可以不受限制地访问他们的医疗信息。使用该服务,您现在可以按时间线构建和组织患者的整个医疗信息,使您能够运行众多模型来评估慢性病风险、管理总医疗费用或预测患者出院后再次入院——无论是在个体层面还是人群层面。
临床实践的应用价值
最令人兴奋的是,在护理点时,医生现在可以查看面前的个体,并确定当时对每个患者最相关的内容。他们还可以放大查看整个人群,通过数据驱动的决策比较和管理更广泛的人群。这将实现更高质量的患者护理,因为医生可以使用数据来了解哪些方法有效,哪些无效。
想象一下,您正在管理一名糖尿病患者的病情,两个月后他们的A1C或血糖水平仍然对您规定的治疗没有反应。想象一下,您可以对该患者进行比较分析,找出其他可能具有类似独特性的个体,并查看哪些方法对他们有效或无效。现在,您拥有关于该患者以及整个人群的全面信息,您可以做出由整体数据证据驱动的护理点决策。这是非常深刻的。这是迫切需要的东西,以弥补护理差距,确保您为每位患者提供应得的最高质量护理,并找出对更大人群有效和无效的方法。
公共卫生领域的潜在影响
毫无疑问,我们将能够更早地发现大人群中的异常情况。我们可以进行更多的预测分析,并更快地确定干预措施是否有效,例如,在我曾参与的H1N1大流行期间。拥有这种查看所有信息然后从数据中收集见解的能力,无论是关于新出现的疫情,还是评估社区内传播的某些条件,然后识别护理差距,或可能导致疾病易感性差异的因素,都将非常有帮助。
在某管理机构,需要管理的信息量是巨大的。例如,上市后监督。当一种新药获得批准时,您需要在整个人群中跟踪以确定是否有任何不良反应,或试图了解为什么某部分人群反应积极,而另一部分则不然。在这些情况下,我们经常需要处理大量以各种形式出现的非结构化数据,无论是患者报告的信息,还是医生、药剂师,或制药公司必须提交的数据。
数据通常是非结构化的,如手写笔记,包含拼写错误、缩写和拼写错误。在那大量的文本中,有很多丢失的信号,像该服务这样的解决方案绝对有助于识别这些信号。这是因为该服务会考虑含义和上下文来提取和建立实体之间的关系,如药物及其对医疗状况的剂量和相关的不良反应。它将提供那种在干草堆中找针的机会,并从收集的各种非结构化医疗数据中更早地检测到任何不良事件。
如果十年前所有这些工具都可用,我可以想象在任何社区中提前应对疫情或疾病传播,并理解每次事件相关的复杂性。然后我们可以应用建模和模式识别的组合,从而为公众提供更好的结果。
技术民主化的价值
最伟大的事情之一不仅是消除了所有这些组件的繁重工作,而且揭开了机器学习和人工智能的神秘面纱。我们正在简化对这些工具的访问,以便它们可以被插入并根据个人需求进行定制,无论您是处于堆栈底部的具有深厚专业知识的人,还是新手从业者。该服务的强大之处在于您可以将所有数据汇集到一个只有您可以访问的安全环境中,然后从所有数据中得出趋势、见解和发现,以做出临床决策、建议甚至新政策。这就是学习型健康系统的承诺。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码


浙公网安备 33010602011771号