文献精读_2024.06.13

Universal and extensible language-vision models for organ segmentation and tumor detection from abdominal computed tomography
来源:https://doi.org/10.1016/j.media.2024.103226
GitHub仓库: https://github.com/ljwztc/CLIP-Driven-Universal-Model

  • 第一眼,仓库上面放了两篇文章,而不是这篇,好奇什么情况🧐
    看了一眼本篇文章,这两篇文章是 CLIP-Driven Universal Model 最开始出现的地方,一篇发表在ICCV 2023上面,另一篇发表在MICCAI 2023上面(章节2.5)

  • 已集成在MONAI框架里,可以调用

  • 与之前发表的工作相比,这篇工作做了进一步扩展(见下)

    • 设计了新模块(language-driven parameter generator),改善各种标签之间的纠缠(章节3.2.2)
    1. [CLS]可以是器官的名字或肿瘤的名字,经过Text Enc.进行文本编码
    2. Text Enc.可以是CLIP(Radford et al.,2021)/BioBERT(Yasunaga et al.,2022)
    3. Vision Enc.之后的特征图经过GAP(global average pooling)得到全局特征
    4. 将编码后的文本特征和GAP之后的图像特征concat到一起(原文:where denotes the concatenation),传入MLP,得到对应[CLS]的参数,用于之后的分割网络的参数初始化θcls=MLPcls(wclsf),
    5. LPG模块对每个[CLS]使用单独的MLP,以克服ICCV版本中存在的纠缠问题(依赖于单个MLP)
    • 加入了四个外部数据集,测试泛化性(图4a)

    • 进行了其他部分标记分割方法的基准测试(表4和5)

    • 对具有挑战性(原文用词:challenging)的肿瘤进行了案例研究(原文用词:case studies),与医生(原文用词:human experts)的勾画结果进行了比较(图5)
      左图:红线:GT1,绿线:GT2,蓝线:预测结果

    • 测试了临床数据,评估了模型对于临床上面被漏诊的小肿瘤的检测能力(章节4.5)

    • 分析了模型分割胰腺肿瘤子类的可迁移性(表9)

  • 其余文章要点

    • Class-specific Segment Head
      同一套架构,初始化不同,每个[CLS]有一个对应的初始化参数θcls,于是产生了多个Class-specific Segment Head,一个头分割一个[CLS]
    • 文章强调的增量学习,比较简单,就是利用Class-specific Segment Head,轻量化分割网络。这里的防遗忘策略是独立化每个类别的分割。另外,还有分割过程中的伪标签,可以看作是一种对于过去训练结果的一种保留。
posted @ 2024-06-13 15:50  Elina-Chang  阅读(59)  评论(0)    收藏  举报