AD预测论文研读系列1

A Deep Learning Model to Predict a Diagnosis of Alzheimer Disease by Using 18F-FDG PET of the Brain

原文链接

提要

目的

开发并验证一种深度学习算法,该算法可以基于脑部18F FDG PET来预测AD、轻度认知障碍或者二者均不是的诊断结果,并将其性能与放射学阅读器的性能进行比较

材料和方法

来自ADNI的18F-FDG PET脑图(含2109张图片,包括1002个病人)用于训练、验证,40张来自40个病人的图像(来自作者所属的机构--独立测试集)用于测试集。使用InceptionV3架构的卷积神经网络在90%的ADNI数据集上训练,并在剩余的10%的数据上测试。同样的测试集用于放射性阅读器进行性能比较。模型分析了灵敏度、特殊性、ROC、saliency map、和t-分布随机邻域嵌入

结果

该算法在预测独立测试集(82%特异性,100%敏感度)(它们平均将在75.8个月后进行最终诊断)的结果评估的ROC曲线下的面积为0.98(95%置信区间:0.94,1.00)。该结果要比放射性阅读器(57%(4/7)敏感性,91%(30/33)特异性,P<.05)的性能更优越。显著性图(Saliency map)显示了对已知感兴趣区域的关注,但集中在整个大脑

结论

通过使用脑部18F FDG PET,该深度学习算法在平均最终诊断之前的75.8个月之前的预测结果在100%敏感度下达到82%的特异性

正文

摘要

传统上,AD患者在18F-FDG PET扫描中,后扣带回、顶叶颞皮质和额叶区域的代谢往往较低,而MCI患者通常表现为后扣带回和顶叶颞部代谢不良,额叶病变多样

本研究旨在评估是否可以训练深度学习算法来预测接受18F-FDG PET大脑治疗的患者的最终临床诊断结果,并且一旦训练,当对最终诊断为AD、MCI或者无痴呆迹象的患者的预测不同时,深度学习算法如何与当前标准的临床阅读方法进行比较

研究假设深度学习算法可以检测出在标准临床图像回顾中不明显的特征或模式,从而改善个体的最终诊断分类

数据预处理

成像数据通过网格方法进行预处理。将图像重新取样到2-mm各向同性体素,并剪切到100 * 100 * 90像素网格,形成200 * 200 * 180-mm3的体积。利用Otsu阈值选择脑体素。采用连通成分分析法,选取脑实质100 * 100 mm2以上的头颅和尾端截面,得出相应的成像容积。然后将总体积分为16个均匀间隔的部分,四舍五入到最近的轴向位置,并分布到一个4 * 4网格中,其中头骨最长的部分在左上,尾骨最长的部分在右下

预处理示例

用网格法对阿尔茨海默病(AD)患者PET进行预处理,图中展示了三个示例患者:A,76岁的AD男性;B,83岁的MCI女性;C,80岁的非AD/MCI男性。在本例中,与非AD/MCI患者相比,AD患者呈现的灰质稍少。MCI患者与非AD/MCI患者的肉眼差异很小

模型训练

经过预处理后,图像的矩阵大小为512 * 512。卷积神经网络架构使用Inception V3,网络首先在ImageNet进行预训练,最后在ADNI数据集上进行微调。在训练集上使用数据增强处理,包含随机宽度和高度偏移(0%-10%),变焦(0%-8%)。在最后的全连接层之前添加比率为0.6的dropout层用作调节

模型模块

使用Inception-v3,该网络堆叠11个Inception模块,其中每个模块由池化层和卷积滤波器组成,校正线性单元作为激活函数。模型的输入是由预处理步骤产生的16个大脑水平部分的二维图像,放置在4*4网格上。三个全连接的层(大小分别为1024、512和3)被添加到最终的连接层中。在全连接层之前应用速率为0.6的dropout作为正则化方法。该模型对ImageNet数据集进行了预训练,并进一步进行了微调,批量大小为8,学习率为0.0001,使用Adam随机梯度优化算法

模型解释和数据可视化

为了进一步直观地了解网络是如何得出其决策的,显示了10%ADNI测试集和独立测试集的一个平均显著性图。显著性图绘制了与每个输入像素相关的AD类分数梯度,从而在图像上显示被认为对分类结果重要的区域

在训练数据上,对深度学习网络提取的特征进行了t-分布随机邻域嵌入(t-sne),提出了一种保持数据点相对贴近度的降维方法。在t-sne应用学习率200和1000次迭代以进一步将特征维度降到2之前,首先通过主成分分析将1024个特征降到维度30

模型测试与统计分析

在两个测试数据集上测试了经过训练的深度学习模型:10%的ADNI集作为内部保持测试集,独立测试集作为外部测试集,由当地机构提供。该模型输出图像属于AD、MCI和非AD/MCI类的概率,选择概率最高的类作为分类结果。绘制了模型在10%ADNI上的受试者工作特性曲线,计算了模型在10%ADNI下AUC的面积

模型训练结果

使用来自ADNI的90%的数据进行训练,10%的数据进行测试,预测AD、MCI和非AD/MCI的AUC分别为0.92、0.63和0.73。上述AUC表明,深度学习网络有合理的能力区分在成像时最终发展为AD的患者和那些留下进行MCI或非AD/MCI的患者,但在区分MCI患者和其他患者方面较弱。在AD、MCI和非AD/MCI的预测中,敏感性分别为81%(36例中的29例)、54%(79例中的43例)和59%(73例中的43例)、特异性分别为94%(152例中的143例)、68%(109例中的74例)和75%(115例中的86例),精确度分别为76%(38例中的29例)、55%(78例中的43例)和60%(72例中的43例)

Inception v3网络的ROC曲线在90%ADNI数据上训练,并在95%CI的独立测试集上测试的结果。预测AD、MCI和非AD/MCI的AUC分别为0.98(95%CI:0.94、1.00)、0.52(95%CI:0.34、0.71)和0.84(95%CI:0.70、0.99)。选择概率最高的类别作为分类结果,在AD、MCI和非AD/MCI的预测中,敏感度分别为100%(7/7)、43%(7/3)和35%(26/9),特异性分别为82%(27/33)、58%(19/33)和93%(13/14),准确度分别为54%(7/13)、18%(3/17)和90%(9/10)。该模型具有很好的敏感性和对AD的合理特异性,在整个随访期(平均在76个月后结束)之前保留了预测最终诊断的强大能力

模型解释:显著性图和t-sne图

如b和c的显著性图第三行的第二和第三部分显示了信号分散区域中最强烈的信号。结果表明,这些模式在确定AD患者的分类中具有重要意义,这与临床意义一致,即颞顶区更多的尾端部分可提供AD的信息。然而,这些模式还不够具体,无法提取出一个统一的人类可解释成像生物标志物,总体而言,这些标志物的显著性和特异性与临床意义一致。显著性图表明,深度学习模型在做出预测时考虑了整个大脑如a所示

在使用T-SNE进行降维后,由Inception v3网络提取的特征将这三个类划分为近似的三个集群。当非AD/MCI组几乎为纯组时,MCI组与非AD/MCI组和AD组混合,AD组与其他两类混合。这使研究人员对模型在测试时的行为有了深入的了解:由于几乎所有的AD患者都位于AD群中,因此在AD类上获得了较高的灵敏度;由于非AD/MCI群几乎是纯的,所以在非AD/MCI类上获得了较高的精确度

讨论

多个以前的研究表明,18F-FDG PET图像上皮质低代谢区的独特分布对区分AD或MCI与正常大脑有意义;然而,18F-FDG本身并不是AD或MCI的明确成像生物标志物

深度学习算法显然利用了来自不同解剖区域不同程度影响的整个大脑来做出最终决定。这突出了深度学习算法的优势,该算法在分类时将大脑视为逐像素体积,这意味着深度学习算法的诊断与人类解释成像研究的不同

该项研究采用的测试数据进行过筛选,首先排除了大多数非AD神经退行性病例和其他可能影响记忆功能的神经疾病,如中风。使用的测试图像的患者群体具有特殊性,该算法不具有一般推广性

总的来说,研究表明,深度学习算法可以通过18F-FDG大脑PET成像研究预测AD的最终诊断,具有很高的准确性和对外部测试数据的鲁棒性。此外,本研究还提出了一种有效的深度学习方法和一组卷积神经网络超参数,并进行了验证


CI = confidence interval
AUC = area under the ROC curve
t-SNE = t-distributed stochastic neighbor embedding

结论

论文中提出了使用Inception v3的卷积神经网络来进行AD的预测,但是并没有详细的描述出各部分的组成,当然也没有提供代码。使用来自ADNI的90%的数据进行训练,10%的数据进行测试,预测AD、MCI和非AD/MCI的AUC分别为0.92、0.63和0.73

该研究的测试结果在ADNI数据集上并不是很突出,在自己提供的数据集上表现的AUC很高,但是其提供的数据集不具有普遍特征。不过预处理的方法和解释结果的方法可以稍微研究一下

AD预测论文研读系列2

posted @ 2019-01-09 20:20  范中豪  阅读(964)  评论(0编辑  收藏  举报