[转载]人工智能离医生还有多远？

《医学趋势50讲》

2019-10-12

进入课程

08 人工智能离医生还有多远？

10: 23|11.89MB

你好，欢迎来到《医学趋势50讲》。

上节课我们讲了人工智能在生命科学基础研究领域的一个重要突破，这节课我们就来看看人工智能在临床的应用。

首先，我来问大家一个问题啊，在癌症的诊断过程中，你认为我们中国在哪个环节最为薄弱？

深入思考过这个问题的朋友一定会说：是病理诊断。为什么病理诊断是我们的一个软肋呢？我们来看一组数字。

我们知道病理诊断对于癌症的准确诊断、分期和治疗都意义重大，是很多癌症诊断的金标准。然而在中国临床中，病理诊断也面临着非常大的困难。首先，我国的病理医生严重短缺，全国有执业资格的病理医生仅有一万名左右。按照每100张病床配备1-2名病理科医师计算，中国病理医生的缺口高达4万-9万人。

人手短缺的情况下，工作强度自然就会很高。数据显示，中国病理科医生每天平均看片数量在100张以上。如果每张片子看5分钟，那么就需要500分钟，意味着医生需要不吃不喝不动看8个多小时。想想对着显微镜工作这么长时间是一种什么感受？工作累、压力大、收入低，导致进入这个领域的新鲜血液更少了，短缺进一步加剧。

这个时候大家自然会想，既然人工智能已经在影像诊断上获得了不错的成绩，那么是不是也能用在病理诊断上？但事实是，这种能力迁移并不容易，因为AI病理诊断背后有三个重大的挑战。

首先，数字化的病理数据非常匮乏。和影像数据不同，绝大部分病理数据目前仍然是以病理玻片的形式存储。只有规模很先进的医学中心才会配有电子扫描仪，将病理片扫面成全视野数字切片，也就是所谓的WSI。我们知道大部分机器学习算法都是需要大量数据去训练的，而且数据越多，训练得到的模型就越好。所以缺数据一直以来都是AI病理诊断面临的大难题。

其次，全视野数字切片，也就是WSI本身比较特殊。特殊在哪里呢？WSI的像素非常高，一般的图片浏览器根本就打不开。据说470张WSI图像的像素就赶上整个ImageNet的数据量了，要知道ImageNet可是机器学习领域最大的一个图像数据库了。这就给数据处理和标记工作都带来了很大的困难，如果用传统的深度学习算法，给每张WSI中的病变组织做人工标注，那成本就可想而知了。

第三：病理图像本身也很特殊，比如在很多病理片中，病变组织占的区域其实非常小，比如在有些早期前列腺癌的病理片中，病变组织只占不到1%的区域。这就意味着不但标注很困难，而且图像识别的背景噪音也很大。

那么，有没有一种方法能够同时克服这些困难呢。

近期在《自然医学》上发表的一项重磅成果破了这个僵局。人工智能公司Paige.AI与纪念斯隆·凯特琳癌症研究中心合作，开发了一套病理诊断AI系统。这个系统是基于15000名癌症患者的4万余张数字化病理切片训练而成。对于前列腺癌、基底细胞癌和腋窝淋巴结转移乳腺癌，这套AI系统的测试曲线下面积可以达到0.98。

我们知道测试曲线下面积，也就是AUC，是评价一个机器学习模型性能的重要指标，最大值是1。这套病理AI诊断系统AUC达到0.98，表现相当优异。这项研究的科学家估计，如果该系统投入临床使用，在保证100%灵敏度的条件下，能够减少病理医生65-75%的无谓读片工作。

不少专家甚至认为这是病理诊断领域一百多年来最重要的进展！

如此重量级的成就，这个研究团队究竟是如何达到的呢？我们再对应前面提到的挑战，分析一下原因：

首先说数据量的问题。纪念斯隆·凯特琳癌症研究中心是全球顶尖的癌症研究中心，他们调用了3个数据集，共有来自44个国家和地区的15187名癌症患者的44732个病理切片信息，包括24859个前列腺癌切片、9962个基底细胞癌切片、9894个淋巴结转移乳腺癌切片，与任何一个同类研究相比数据量都要大上一级不止。

重要的是，这些数字化病理片并没有经过严格的筛选。常见的一些切片制作技术问题，比如说气泡、不规则的形状、固定得不好、组织不平整等等，甚至数字化过程导致的图像模糊的数据也被纳入其中。

这里你可能会问，不是说机器学习的数据是“垃圾进，垃圾出”嘛，为什么他们要放弃对数据的严格标准呢？这里原因有两个：

首先是，不做严格的数据筛选，可以获得更多的训练数据；

其次，真实世界场景中的病理数字片本身就存在这样的问题，短期内也不可能完全杜绝。如果用一个完美的，无缺陷数据集去训练模型，遇到现实世界中有各种干扰噪声低数据，诊断的准确性就会大打折扣。

那接下来，我们看看标注和图片背景噪声问题。研究团队用一种创新的算法同时妥善地解决了这两个问题。这是一种叫做多示例学习的弱监督学习算法。

这种算法的优势是，不再需要手动去标注每一张全视野病理切片，而是可以直接将全视野切片作为输入，将电子病历中的诊断结果作为标签，去训练算法。如此以来，就不再需要专家做耗时且昂贵的标注工作，这样他们就可以使用更大的数据集去做训练，从而得到更好的模型。

其实多示例学习并不是一个全新的概念，它最早是在1996年被提出。非常著名的一个应用是在分子药物活性的预测上。详细的算法介绍大家可以点击文稿查看相关的论文。

除了以上两点之外，还有一个不可忽视的因素。本次研究的论文通讯作者，Paige.AI的联合创始人Thomas Fuchs教授本身就是AI病理领域的大牛，他在纪念斯隆·凯特琳癌症研究中心也有自己的实验室。所以这个研究本身就属于强强联合，而且是亲密联合。

所以你看一项突破性的成功背后总有它独特的原因。

除了在病理领域的重大突破之外，过去一年中，人工智能在临床领域还有很多重磅的进展。这里我们给大家整理了其中最重要的三项突破，相关研究的论文大家点击文稿就可以看到链接。

第一个是关于人工智能和液体活检的联姻。约翰霍普金斯大学医学院的科学家不久前在顶级期刊《自然》上发表了一项重磅突破。他们基于血浆中的游离DNA，开发了一个人工智能平台，能够准确区分癌症患者和健康人的血液样本，准确率达到91%。这无异于给火热的液体活检技术插上了一对翅膀，人类离真正的“滴血验癌”又近了一步。这套AI系统使用的算法本身并不复杂，但堪称是机器学习和医学领域的一次优美结合。

第二个是关于肺癌早筛。不久前，斯坦福大学、西北大学、以及纽约大学，联合谷歌AI部门的科学家，使用人工智能对肺癌筛查结果进行判读，达到了94.4%的曲线下面积，相比专业医师，增加了5.2%的敏感性和11.6%的特异性。相关论文发表在《自然医学》上，堪称目前人工智能在肺癌早筛领域最重要的突破。

第三个比较独特。来自德国亚琛工业大学医院的科学家，利用人工智能直接从病理切片上识别微卫星不稳定（MSI）。研究利用了深度残差学习算法，识别结直肠癌MSI准确率达到84%！考虑到MSI在各癌种中的普遍性，后续潜力无限。相关研究论文发表在《自然医学》上，看来人工智能在病理分子诊断上的潜力也不可限量。

说完了重要突破，我们来看看人工智能目前在临床应用上的一些不待解决的难题：

首先，数据仍然是个大问题。用于训练人工智能模型的数据量和数据质量都有待提高。

其次是人工智能模型的可泛化能力以及互操作性。什么叫可泛化能力呢，比如我们用北美人的数据训练的模型，直接用在东亚人的数据上，可能就会出现问题。而互操作性是指，这样的人工智能系统能否兼容目前各式各样的电子病历系统，让医生使用起来更友好更便捷呢？

第三是人工智能系统的安全性问题。大家可能听说过，自动驾驶领域会遇到一个叫对抗性攻击的问题，大意是一个小小的认为图像干扰，可能会严重影响人工智能的算法。比如在街上粘一条特殊图像的胶带。事实上类似的对抗性攻击问题在医疗人工智能中也同样存在。

最后一条是模型的不可解释性。我们知道医生在向病人解释诊断结果时，往往会告诉他们，诊断过程是基于什么证据，得出了哪些判断，尤其是当诊断结果比较微妙的时候。而人工智能算法只会给我们一个冰冷的预测结果，医生无法解释其中的缘由，算法工程师也无法解释。这种模型的不可解释性可能会在临床使用中给大家带来困扰。

好了，这节课最后我给大家留一个思考题：

如果我们以上提到的难题都得到了妥善的解决，人工智能真的开始广泛进入临床，你认为医生的角色会发生哪些变化？在这种局面下，具备哪些能力象限的医生会更有竞争力？

posted on 2020-03-19 10:55 深蓝医生阅读(270) 评论(0) 收藏举报

刷新页面返回顶部

深蓝医生

[转载]人工智能离医生还有多远？

导航

公告