文献精读_2024.06.13

Universal and extensible language-vision models for organ segmentation and tumor detection from abdominal computed tomography
来源：https://doi.org/10.1016/j.media.2024.103226
GitHub仓库: https://github.com/ljwztc/CLIP-Driven-Universal-Model

第一眼，仓库上面放了两篇文章，而不是这篇，好奇什么情况🧐
看了一眼本篇文章，这两篇文章是 CLIP-Driven Universal Model 最开始出现的地方，一篇发表在ICCV 2023上面，另一篇发表在MICCAI 2023上面（章节2.5）
已集成在MONAI框架里，可以调用
与之前发表的工作相比，这篇工作做了进一步扩展（见下）
- 设计了新模块（language-driven parameter generator），改善各种标签之间的纠缠（章节3.2.2）
1. [CLS]可以是器官的名字或肿瘤的名字，经过Text Enc.进行文本编码
2. Text Enc.可以是CLIP(Radford et al.，2021)/BioBERT(Yasunaga et al.，2022)
3. Vision Enc.之后的特征图经过GAP(global average pooling)得到全局特征
4. 将编码后的文本特征和GAP之后的图像特征concat到一起（原文：where $\oplus$ denotes the concatenation），传入MLP，得到对应[CLS]的参数，用于之后的分割网络的参数初始化 $θ_{c l s} = {MLP}_{c l s} (w_{c l s} \oplus f),$
5. LPG模块对每个[CLS]使用单独的MLP，以克服ICCV版本中存在的纠缠问题（依赖于单个MLP）
- 加入了四个外部数据集，测试泛化性（图4a）
- 进行了其他部分标记分割方法的基准测试（表4和5）
- 对具有挑战性（原文用词：challenging）的肿瘤进行了案例研究（原文用词：case studies），与医生（原文用词：human experts）的勾画结果进行了比较（图5）
  左图：红线：GT1，绿线：GT2，蓝线：预测结果
- 测试了临床数据，评估了模型对于临床上面被漏诊的小肿瘤的检测能力（章节4.5）
- 分析了模型分割胰腺肿瘤子类的可迁移性（表9）
其余文章要点
- Class-specific Segment Head
  同一套架构，初始化不同，每个[CLS]有一个对应的初始化参数 $θ_{c l s}$ ，于是产生了多个Class-specific Segment Head，一个头分割一个[CLS]
- 文章强调的增量学习，比较简单，就是利用Class-specific Segment Head，轻量化分割网络。这里的防遗忘策略是独立化每个类别的分割。另外，还有分割过程中的伪标签，可以看作是一种对于过去训练结果的一种保留。

posted @ 2024-06-13 15:50 Elina-Chang 阅读(59) 评论(0) 收藏举报

刷新页面返回顶部

博客园

elinablog

文献精读_2024.06.13

公告