[论文总结] 深度学习在农业领域应用论文笔记13

目录

1. Downscaling crop production data to fine scale estimates with geostatistics and remote sensing: a case study in mapping cotton fibre quality (Precision Agriculture ,2024, IF=5.585)

背景

棉花的质量和产量影响种植者的收入,棉纤维质量由许多不同的测量值表示,包括纤维长度、强度、微米(纤维细度(直径)和成熟度的复合测量值)、颜色和垃圾(样品中棉纤维以外的任何材料,例如叶子和植物物质)含量,并以多种等级进行描述,这些等级会影响最终的价格。目前有很多的预测产量的方法,但是缩小尺度,即将粗略的空间分辨率数据分解为更精细的分辨率预测,区域数据在农业和地理应用中是一个挑战,包括作物产量预测(Brus et al., 2018),以及在不同空间分辨率下处理遥感影像时(Wang et al., 2015).安装在收割机上的移动产量监测器不适用于所有作物,也不适用于全球所有地区。相反,块状、亚田或全田尺度的区域观测通常是许多商品(包括甘蔗和人工收获的园艺作物)唯一可用的产量数据。虽然棉花产量可以通过安装在收割机上的产量监测器轻松绘制,但棉花纤维质量不能像其他作物的质量变量(例如谷物蛋白质含量)那样随时随地绘制。取而代之的是,棉纤维质量数据是在收获后收集的,通常作为整个或部分田地的平均值返回给种植者,这些数据与田间位置没有直接关系。因此,本文介绍了一种缩小和解锁现有模块聚合棉花质量数据的方法,以便更精确地管理棉纤维质量。本研究的目的是:

  1. 评估遥感影像对棉花产量和纤维质量变量变化进行建模的能力。这是缩小规模方法的基础。
  2. 使用精细分辨率的良率数据来说明和测试降尺度方法。
  3. 注意,本研究的目的不是在收获前预测棉纤维质量。

方法

研究区域和可用数据:2021/22 生长季节从澳大利亚新南威尔士州两个棉花种植区的 11 块田地收集了棉纤维质量和产量数据。该数据集包括新南威尔士州南部(SNSW)的3个洪水灌溉棉田和新南威尔士州北部(NNSW)的8个洪水灌溉棉田。棉花于2021年10月/11月播种,由于本季收尾潮湿,直到2022年7月才收获。因此每个模块的每个纤维质量变量都有一个值。对于每个田地,在33至216公顷的田地中,有72至484个单独的棉花模块数据可用。每个田地总共有364至2945包棉纤维质量数据。收割时,通过安装在收割机上的产量监测器随时随地记录产量数据。

整个生长季节(2021年10月至 2022年7月)的所有遥感图像均从 Sentinel-2 以 10 m 的空间分辨率获得,重访时间为 5 天。使用Sentinel-2影像推导出一套植被指数,包括归一化差异植被指数(NDVI)、归一化差异红边(NDRE)、增强植被指数(EVI)、冠层叶绿素含量指数(CCCI)、绿红植被指数(GRVI)、红边比(RE/R)、比率光谱指数(RSI)和优化土壤调整植被指数(OSAVI)。鉴于这八种不同的植被指数在监测、建模和预测棉花生长、营养、产量和/或纤维质量方面的性能各不相同,本研究旨在评估不同植被指数在田间空间上捕捉和描述棉纤维产量和质量变化的能力,特别是将棉纤维质量数据缩小到精细分辨率。此外,如果一个植被指数与特定纤维质量变量的相关性更强,或者显示出明显的时间趋势,例如,该指数可能对本研究范围之外的未来研究有用,例如纤维质量预测。

将所有遥感协变量重新采样为两种分辨率:(1)第一种是每个场的5 m分辨率以构建协变量网格;(2)第二个是在每个模块多边形(块)中提取的模块聚合(平均值)值。模块聚合协变量和精细分辨率协变量网格分别用于趋势模型构建和预测。使用 5 m 网格来最好地表示棉模块宽度。

然后采用了不同方法建模与决策。模块聚合面积产量、纤维质量和协变量数据数据集被拆分,变量选择的 70% 校准、30% 验证拆分、模型校准和所有建模和降尺度方法的验证。趋势(多元线性回归,MLR或随机森林)和A2PK建模都是在模块的空间支持(块支持)下进行的,所有模型都是使用校准数据集构建的。然后将趋势(MLR 和 随机森林)模型应用于精细分辨率协变量网格,以在点支持处生成降尺度预测。

结果

与遥感协变量的相关性对棉纤维产量的相关性比棉纤维微米级的相关性更强,与棉纤维长度的相关性要强得多。在几乎所有田地中,使用具有或不具有A2PK的遥感协变量回归,可以用良好的模型质量估计棉纤维产量和微米级的空间趋势。相反,棉纤维长度的模型质量较差,零模型和趋势模型之间的模型性能差异很小。当使用精细分辨率产量观测测试降尺度方法时,与模块分辨率相比,精细分辨率下的模型性能更差。

结论

在这项研究中,展示了一种降尺度方法,其中使用具有精细分辨率遥感植被指数的回归来估计棉纤维产量和质量的空间趋势。如果可以估计空间趋势,则使用 A2PK 从趋势模型中缩小残差。然而,在没有空间趋势模型的情况下,将 A2PK 与零模型(场均值)进行比较,以确定将区域观测值从块体缩小到点支座的最佳方法。与遥感协变量的相关性对棉纤维产量的相关性比棉纤维微米级的相关性更强,与棉纤维长度的相关性要强得多。从广义上讲,生长季节后半段的协变量相关性更强,在回归模型中使用更频繁。在几乎所有领域,棉纤维产量和微米级的空间趋势都可以在良好的模型质量下使用遥感协变量回归进行估计。相反,棉纤维长度的模型质量较差,零模型和趋势模型之间的模型性能差异很小。残差的添加 A2PK 提高了缩小面积棉纤维产量观测的模型性能,但对棉纤维微米没有。在没有高分辨率长度或微米数据的情况下,使用高分辨率棉纤维产量数据作为替代物来测试降尺度方法。与模块分辨率相比,模型在精细分辨率下的性能较差也就不足为奇了,但预计降尺度方法在形状更规则的区域数据上会表现得更好,例如树木作物的果仓产量。

个人总结

这篇论文的立意是从实际出发的,与很多根据卫星图像来预测产量的文章不同,该研究的目的强调了不是产量预测而是提出使用棉花种植区块产量和纤维质量(长度和微米)数据来说明作物生产数据的缩小区域观测的通用方法。在实验数据方面,采用了澳大利亚11个种植区域2年生长季节260天的生长数据,8种不同植被指数、32个协变量和棉花的产量和棉纤维微米(质量)以及总共有约25张卫星图像可用于 NNSW区域,约70 张图像可用于SNSW区域。数据量挺大的,做的内容也具有实际意义。挺好的一篇文章。投稿评分:大量的大田实验+5分,立意+0.5分,单位是澳大利亚悉尼大学+0.5分,写作+1分=7分。

2. A Systematic Collection of Medical Image Datasets for Deep Learning (ACM COMPUTING SURVEYS,2023, IF=21.77)

摘要:本文尽可能全面地提供了一系列医学图像数据集,以及它们对深度学习研究的相关挑战。我们收集了 2007 年至 2020 年间主要报告的约 300 个数据集和挑战的信息,并将它们分为四类:头颈部、胸部和腹部、病理和血液等。我们工作的目的是提供一个尽可能最新和完整的列表,可以用作参考,以便轻松找到用于医学图像分析的数据集以及与这些数据集相关的信息。

背景

在将深度学习方法应用于特定领域时,数据稀缺是一个常见问题,而在医学图像分析的情况下,这个问题变得更加严重。将深度学习方法应用于医学图像分析研究的研究人员通常不具有医学背景,通常是计算机科学家。由于无法获得医疗设备和患者,他们无法独立收集数据。他们也无法对获得的数据进行注释,因为他们缺乏相关的医学知识。此外,医疗数据归机构所有,由于隐私和道德限制,这些机构不容易公开。为了解决这些问题,MICCAI、ISBI、AAPM 等会议和机构发起了许多与 DL 相关的医学图像分析挑战。这些旨在设计和开发自动或半自动算法,并利用计算机辅助方法促进医学图像分析研究。同时,一些研究人员和机构还组织项目收集医学数据集并发布用于研究目的。尽管做了所有这些工作,但对于医学图像分析的新手来说,找到医疗数据仍然具有挑战性。因此,我们提出了这项对医学数据集和相关挑战的全面调查,旨在帮助研究人员轻松找到他们研究所需的数据集。

医学数据集

  1. 时间线
  2. 身体部位 :这些数据集和挑战中,前5个聚焦器官包括大脑、肺、心脏、眼睛、肝脏。
  3. 方式:与分割、分类、检测和其他任务相关的数据集数量有所增加。研究主要集中在早期阶段的分割(28、29、54)任务上。然后,它多样化为各种任务或任务组合,这些任务对于临床需求也是必不可少的,包括分类(154,197,259),分割(1,2),检测(199,232),回归(213,214),生成(14,19),跟踪(220,245)和注册(24,25,166)
  4. 任务:常用的医学数据集获取方式包括MRI、CT、超声、内窥镜检查、正电子发射断层扫描(PET)、计算机X线摄影(CR)、心电图和OCT
  5. 源和目标:回顾了涉及医学图像分割和分类的论文。这使我们能够确定数据集的多个来源,包括举办医学影像相关竞赛的网站 Grand Challenge 和癌症影像档案馆 (TCIA),一个举办癌症相关竞赛的网站。此外,我们还利用 Google 搜索其他相关网站和馆藏,这些网站和馆藏包含与使用 DL 进行医学图像分析相关的数据集和挑战。通过这个过程,我们发现了Kaggle、Codalab、OpenNeuro、PhysioNet,以及受到Grand Challenge和TCIA启发的科学期刊,如Scientific Data。接下来,通过这些网站进行爬虫,以收集有关这些网站上特色的数据集/比赛的信息,并根据可用信息仔细选择数据集和挑战。

头颈相关的数据集和挑战

(不展开了)

胸部和腹部相关的数据集和挑战

(不展开了)

病理学和血液学的数据集和挑战

(不展开了)

讨论

主要讨论了医学数据的稀缺性以及有效获取数据方法等。

个人总结

这篇论文有个非常大的缺点就是几乎所有的论文配图都不清晰,以至于我即使下载了图片也无法看清图中的文字。尤其对于很重要的图而言,这个缺陷是论文的完整性而言致命的。虽然投稿期刊的影响因子很高,但我个人觉得论文还可以再进一步改进。论文一个很大的优点是总结了医学数据集论文,这点可以供很多相关学科研究人员信息参考。

3. PhenoBench: A Large Dataset and Benchmarks for Semantic Image Interpretation in the Agricultural Domain (IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE,2024,IF=22.2)

摘要:虽然其他领域的大型数据集和基准已经随时可用,并推动了显著的进展,但农业数据集和基准相对较少。我们提出了一个带注释的数据集和基准,用于对真实农业领域进行语义解释。我们的数据集通过无人机记录,提供了高质量的、逐像素的作物和杂草注释,同时还提供了作物叶片实例的注释。此外,我们在一个由不同田地组成的隐藏测试集上为各种任务提供了基准,包括已知田地(由训练数据覆盖)和一个完全看不见的田地。我们的数据集、基准和代码可在https://www.phenobench.org获取。

背景

基于视觉感知系统的机器人和无人机可以通过提供更好的田间管理决策工具和支持作物新品种的培育来帮助应对这些挑战。计算机视觉在图像解释方面取得了巨大进展,数据集和相关基准对于这一进展至关重要,而农业领域缺乏大规模数据集和可重复的基准。本文旨在提供一个带有基准的大型数据集,用于农业领域的语义解释,涵盖语义分割、全景分割、植物检测、叶片检测和分层全景分割等任务。

相关的工作

近年来,由于深度学习的发展和大规模数据集的可用性,图像的密集、逐像素语义解释(如语义、实例和全景分割)取得了快速进展。农业领域面临着不同的挑战,如植物生长导致的类内变异性大,虽然已有一些相关数据集,但准确密集注释的大型农业数据集以及在隐藏测试集上的可重复基准仍然缺失。本文的数据集具有独特的注释水平,包括作物和杂草的语义和实例掩码,以及作物的时间一致实例标识,并且提供了可比较和可重复的结果。

我们的数据集

  1. 数据收集
    使用配备高分辨率相机的无人机在不同日期对糖用甜菜田进行多次飞行,以捕获不同生长阶段的图像,飞行高度约为21米,地面采样距离为1毫米,图像分辨率为11664像素×8750像素,通过DJI Ground Station Pro应用程序规划覆盖整个田地的飞行,设置前后重叠和侧重叠,并使用机载GNSS进行地理参考。

  2. 标注过程:由于原始图像尺寸大,难以标注,因此提取重叠的2000像素×2000像素的补丁进行并行标注,确保每个植物至少在一个补丁中完全可见,标注过程分为四轮,首先标注植物实例,然后标注叶片实例,每轮标注都经过验证和修正,最终由14名标注员投入约2000小时完成标注。

  3. 时间对齐
    通过利用无人机RTK GNSS提供的位置进行束调整,确定相机在每个捕获图像中的姿态,从而实现时间上对齐的植物实例,以便研究单个植物的生长,通过匈牙利匹配算法根据作物中心的距离稳健地关联在不同图像中出现的相同植物的实例。

  4. 数据集统
    最终从全局图像中提取1024像素×1024像素的较小图像,以确保包含完整的作物并提供上下文信息,数据集统计信息包括不同分割的图像数量、作物实例数量、杂草实例数量和作物叶片数量等,还提供了未标记数据用于预训练、半监督或无监督域适应研究,数据集中的植物由于生长阶段和土壤条件的不同而具有多样性,并且植物之间的重叠也有很大变化。

基准

  1. 语义分割:任务是训练模型预测每个像素的类,提供了将每个像素分配给土壤、作物或杂草类的标注数据,基线方法选择了DeepLabV3+和ERFNet,使用交并比(IoU)和平均交并比(mIoU)进行评估,结果表明现有方法总体性能较好,但杂草的IoU相对较低,模型容量对解决该问题影响不大。
  2. 全景分割:任务是联合估计像素级语义标签和区分实例,包括“stuff”(无实例类,如土壤)和“thing”(有明确可分离对象的类,如作物和杂草),基线方法使用Panoptic DeepLab、Mask R - CNN和Mask2Former,使用全景质量(PQ)、作物的PQ(PQcrop)、杂草的PQ(PQweeds)和土壤的IoU(IoUsoil)进行评估,结果表明Mask2Former性能最佳,植物实例分割在小植物几乎不可见和大植物高度重叠的情况下具有挑战性。
  3. 检测:任务是检测植物或叶片实例,通过从实例级注释中提取边界框来训练目标检测方法,基线方法选择Faster R - CNN、Mask R - CNN和YOLOv7,使用平均精度(AP)、平均平均精度(mAP)、mAP50和mAP75进行评估,结果表明现代方法在作物检测方面具有优势,而杂草检测更困难,叶片检测的性能相对较低,需要领域特定的方法。
  4. 叶片实例分割:任务是预测每个可见作物叶片的实例掩码,与对象检测密切相关,早期方法依赖于对象检测方法进行自上而下的实例分割或自下而上的处理,最近的方法直接估计每个对象实例的掩码,基线方法使用Mask R - CNN和Mask2Former,使用叶片的全景质量(PQleaf)进行评估,结果表明这些方法在分离叶片方面存在困难,需要更多领域特定的方法来引入先验知识以实现更好的分离。
  5. 分层全景分割:模型旨在同时对整个对象和每个部分进行实例分割,以提供关于每个对象的更详细信息,例如通过将单个叶片与特定植物相关联来获得每株植物的总叶片数,基线方法选择Weyler等人和Roggiolani等人的方法,使用全景质量(PQ)、作物的PQ(PQcrop)、叶片的PQ(PQleaf)、杂草和土壤的IoU进行评估,结果表明两种方法在大生长阶段的植物预测中不一致,叶片的实例分离具有挑战性,针对这些场景的方法可以提高性能。

结合CVPPA研讨会的挑战

在2023年IEEE/CVF国际计算机视觉会议(ICCV)上举办的计算机视觉在植物表型和农业中的研讨会中,我们邀请社区使用我们的数据集解决分层全景分割这一最具挑战性的任务。我们在CodaLab上收到了来自107名注册参与者的148份提交,对于排行榜上表现最佳的参赛作品,我们邀请作者提供他们方法的技术报告。
技术解决方案远远超过了基线,通常使用Segment Anything Model结合检测方法或初始分割并进行改进,基于Mask2Former的方法在小植物上使用掩码细化和在植物掩码上进行第二阶段的叶片实例分割也显示出了有希望的结果。

对其他主题的潜在影响

我们的数据集提供了标记和未标记的图像,有可能影响农业领域的其他研究和应用领域,如自我监督表示学习、域泛化和无监督域适应。
结合其他农业数据集,可以研究不同植物物种之间的跨域转移,以开发更通用的农业领域视觉感知系统。

结论

本文提出了一个用于研究农业作物生产中视觉感知的新数据集,包括无人机捕获的真实田间图像以及作物和杂草的密集逐像素注释和作物叶片的逐像素注释。
我们提出了基准任务并在隐藏测试集上进行评估,还提供了基线结果,表明某些任务需要进一步研究以应对农业领域的特定挑战,更多利用领域知识的特定领域方法可能会提高性能。

个人总结

这篇论文提出了一个关于农业领域语义图像解释的大型数据集和基准(PhenoBench),并且公开了数据集、代码和基准。目前语义分割、全景分割、实例分割、分层全景分割的农业数据集很少,大型数据集更少。这是该论文很大的亮点。总之,这篇论文是一个不错的工作。

4.Benchmarking Self-Supervised Learning on Diverse Pathology Datasets (2023,CVPR,顶会)

摘要:计算病理学可以挽救人类生命,但模型对标注数据需求大,而病理图像的标注成本极高。自监督学习(SSL)已被证明是利用未标记数据的有效方法,其在病理学中的应用将极大地有益于下游任务。然而,目前还没有原则性的研究来比较SSL方法并讨论如何使其适应病理学。为了满足这一需求,我们迄今为止对病理图像数据上的SSL预训练进行了最大规模的研究。我们的研究使用4种具有代表性的SSL方法在不同的下游任务上进行。我们确定,在标准SSL设置(如线性和微调评估)以及低标签制度下,病理学中大规模的域对齐预训练始终优于ImageNet预训练。此外,我们提出了一组特定领域的技术,实验表明这些技术可以提高性能。首次,我们将SSL应用于细胞核实例分割的具有挑战性的任务,并展示了其在不同评估设置下的巨大且稳定的性能改进。我们发布了预训练模型的权重。

研究背景

对人体组织的显微图像进行计算分析(也称为计算病理学)已成为一个重要的研究课题,其临床应用可以通过改善癌症诊断[49]和治疗[42]来挽救人类生命。病理学中的深度学习和计算机视觉方法允许客观性[15]、大规模分析[20]和分类[5],但通常需要大量的标注数据[52]。然而,病理图像的标注需要具有多年临床经验的专家[37],导致公开标注数据集稀缺,需要有效的方法在这些数据上进行训练。一个常见且实际的解决方案是微调使用ImageNet数据集以监督方式预训练的模型[19, 34]。这种迁移学习的范式[34]最近受到了自监督学习(SSL)的挑战,SSL仅在大量未标记数据上进行训练,但在ImageNet上的性能优于监督预训练[8, 10, 26]。在病理学领域,与标注数据集的缺乏[52]相反,大量未标记数据集是丰富的[4, 37, 38, 57]。如果我们能有效地将SSL应用于这大量的未标记数据,即使下游病理任务包含有限的标注训练数据,也能极大地受益。自然地,我们会问:自监督学习在提高病理任务性能方面的帮助有多大?

ImageNet预训练权重在医学成像中被广泛使用,并且已知有助于获得高任务性能[30, 32, 43, 59]。由于自然图像和医学图像之间的差异,大规模的域对齐预训练有可能将性能推到ImageNet预训练之上[39]。因此,最近的工作表明,在病理数据上进行SSL预训练可以提高下游病理任务的性能[3, 16, 23, 55]。我们的研究旨在通过在不同的下游病理任务上评估多种SSL方法来扩展这些先前的工作。此外,我们提出了一些技术来调整为自然图像数据设计的SSL方法,以便更好地从病理数据中学习。

在本文中,我们对4种最近且具有代表性的SSL方法(MoCo v2 [12]、SwAV [7]、Barlow Twins [61]和DINO [8])应用于大规模病理数据时进行了深入分析。为此,我们从癌症基因组图谱(TCGA)数据集[57]的全切片图像(WSI)中获取了1900万个图像补丁,并应用我们特定领域的技术来训练这些SSL方法。评估在2个不同的下游任务上进行,涉及5个数据集:(1)使用BACH [1]、CRC [31]、MHIST [56]和PatchCamelyon [54]数据集进行病理图像分类,(2)使用CoNSeP数据集[25]进行细胞核实例分割和分类。

我们的大规模研究产生了一些有用的贡献:(a)我们进行了迄今为止病理图像数据上SSL预训练的最大规模研究,并展示了其在不同下游任务上优于使用ImageNet预训练权重的优势(见图1),(b)我们提出了一组精心设计的数据管理和数据增强技术,可以进一步提高下游性能,(c)我们证明了SSL是标签高效的,因此在收集标注特别昂贵的病理学中是一个实际的解决方案,(d)我们首次将SSL应用于细胞核实例分割的密集预测任务,并展示了其在不同评估设置下的价值。我们在https://lunit-io.github.io/research/publications/pathology_ssl上发布我们的预训练模型权重,以进一步为研究社区做出贡献。

相关的工作

自监督学习

SSL方法通过利用从无标签数据本身获得的监督信号设计的 pretext 任务来学习表示。我们将文献中常见的SSL的4种主要范式描述如下。

  1. 对比学习

对比方法[27, 40, 41]如SimCLR [10]和MoCo v2 [12]学习将每个训练数据实例与其他所有实例区分开来。目标是学习正对(通过数据增强的扰动)的相似表示和与负对(其他实例)的判别表示。一个限制是需要多样化的负对,这可以通过大批次大小[10]或内存库[12]来缓解。在这项工作中,我们探索MoCo v2 [12]。

  1. 非对比学习

方法如BYOL [26]、SimSiam [13]和Barlow Twins [61]与对比学习方法有相似之处,它们在不同的增强视图下学习图像的表示。根本区别在于这些方法不依赖于负对,这允许它们使用小批次大小。在这项工作中,我们探索Barlow Twins [61]。

  1. 聚类

这种范式使用聚类的概念,如DeepCluster [6]和SwAV [7]所示。基于聚类的SSL区分图像表示的簇而不是明确的图像对。在这项工作中,我们探索SwAV [7]。使用视觉Transformer的SSL。视觉Transformer(ViT)[21]在各种计算机视觉任务上的有效性已经得到了证明。因此,从CNN到ViT的范式转变最近在自监督学习领域出现。因此,最近的研究[8, 14, 36]试图研究促进基于ViT架构的SSL的技术。在这项工作中,我们探索DINO [8]。

医学成像中的SSL

最近,[39]研究了医学成像中的迁移学习,并观察到使用域对齐的数据集进行预训练可以提高模型的可迁移性。此外,特定领域的SSL方法可以进一步提高在下游医学图像相关任务上微调的模型的性能。在病理学中,[55]使用BYOL并评估从病理数据学习的预训练权重在图像分类任务上的性能。[23]采用SimSiam,表明SSL改善了病理图像检索。最近,[16]使用SimCLR并观察到与ImageNet预训练相比,SSL在下游病理任务上始终有所改进。

与之前专注于单一SSL方法或仅关注CNNs或ViTs的工作不同,我们从上述每个SSL范式中探索一种代表性方法,包括基于ViT的SSL。通过这种方式,我们为在病理学中比较这些方法建立了一个共同且公平的基准。此外,我们在各种下游任务上评估了特定领域的预训练权重,包括具有挑战性的细胞核实例分割任务。最后,我们设计了专门用于应对病理学特定挑战的数据增强技术,从而在下游任务中获得更好的表示和性能。

病理学的自监督预训练

SSL方法的性能可能会根据训练数据的组成和所选的数据增强方法而有很大差异。文献中的SSL方法通常在涉及自然图像的设置中设计和评估,当应用于不同领域(如病理学)时,可能需要进一步调整。在本节中,我们讨论自然图像和病理图像之间的差异。我们还提出了一组可以轻松采用的技术,以提高在病理图像数据上预训练的模型的性能。

与自然图像的差异

流行的计算机视觉数据集(如ImageNet [19])中包含的图像通常被称为“自然图像”。病理图像有几个独特的特征,使其与自然图像不同。我们在本节中讨论这些差异,并在图2中总结。

无标准方向

自然图像中包含的对象或场景基于合理性进行定向,即人类期望对象的定向方式。计算机视觉方法可以利用这种假设或模式(如曼哈顿世界假设[17]),因此SSL方法在训练时不会随机增强图像的方向。然而,病理图像可以以任何方式定向,并且仍然是合理的。此外,对象(如细胞)很多且分散在任意位置,使得无法定义“标准方向”,即正确的标准定向。

颜色变化低

虽然自然图像由于所代表对象的多样性而包含大范围的颜色,但病理图像往往显示出相似的颜色分布(如紫色和粉色染色)。尽管染色在不同机构之间可能会有所不同,并且相同的生物结构根据癌症类型会有不同的外观,但病理图像比自然图像更一致。

不同的FoV

为了正确分析病理图像,必须考虑不同的视野(FoV)。较大的FoV允许病理学家和算法更好地理解组织区域和细胞类别的更大背景,从而做出高级预测,如前列腺癌的分级[4]。在其他需要对单个细胞或细胞群落进行分类的任务中,需要较小的FoV来提高对感兴趣对象的分辨率[25]。因此,病理学前训练模型理想情况下应该能够处理来自不同FoV的任务。

适应SSL用于病理学的技术

在本节中,我们介绍了使SSL方法适应病理图像的技术。主要包括随机垂直翻转、染色增强、以及使用多个FoV。然后介绍了采用这些技术的原因。

实验设置

(不展开了)

实验结果

(不展开了)

讨论

讨论了3个方面。回答了3个问题。在本节中,我们回答了计算病理学研究人员在考虑为他们的研究进行自监督预训练时可能自然会问的几个关键问题。

  1. 我们应该在病理数据上进行预训练吗?是的 - 我们通过对许多SSL方法和数据集进行全面实验,始终证明了在病理数据上进行预训练优于在ImageNet上进行监督预训练。有趣的是,SSL预训练权重在CoNSeP上甚至对于更长的训练计划也能保持性能差距。

  2. 哪种SSL方法是最好的?我们发现没有明确的赢家。所有应用域对齐预训练的SSL方法通常都表现良好。因此,我们建议从业者专注于为SSL预训练策划大规模的域对齐数据集,而不是专注于选择特定的SSL方法。然而,一些初步观察可能对未来的研究有用。例如,(a)Barlow Twins在线性评估中往往表现良好,而MoCo v2在微调评估中表现良好,(b)与CNNs相比,ViTs从域对齐SSL中受益更多。

  3. 成功的自监督预训练的关键因素是什么?领域知识 - 我们提出的一组技术完全基于病理学中的观察,并且通过实验证明是有效的。通过将特定领域的知识纳入预训练步骤,例如使用染色增强和从多个FoV提取补丁,我们超越了从天真地将SSL应用于新数据集所能获得的性能。

结论和未来工作

在本文中,我们迄今为止在病理学领域对SSL进行了最大规模和最全面的研究,在预训练期间使用了多达3300万个图像补丁,并在2个下游任务和5个数据集上评估了4种具有代表性的SSL方法(包括CNNs和ViTs)。我们的研究证实,大规模的域对齐预训练对病理学有帮助,展示了其在有限标记数据、更长微调计划以及使用更大和更多样化的数据集进行预训练(如TCGA + TULIP)的场景中的价值。

个人总结

这篇论文读下来非常舒服,逻辑性很强,无论是论文的结构以及写作方式都很有参考价值。

5.FieldPlant: A Dataset of Field Plant Images for Plant Disease Detection and Classification With Deep Learning(IEEE Access, IF=3.4)

摘要:在这项研究中,提出了一个名为 FieldPlant 的数据集,其中包括直接从种植园收集的 5,170 张植物病害图像。在植物病理学家的监督下,对每幅图像上的单个叶子进行手动注释,以确保过程质量。这导致了 8,629 个病害类别的 27 片单独注释的叶子。我们在这个数据集上运行了各种基准测试,以评估最先进的分类和对象检测模型,发现 FieldPlant 上的分类任务优于 PlantDoc 上的分类任务。

个人总结

这篇论文参考价值一般,而且数据集规模较小,且没有公开数据集。

6.Paddy Doctor: A Visual Image Dataset for Automated Paddy Disease Classification and Benchmarking (arXiv)

摘要:Paddy Doctor 数据集包含 13 个类别(12 种不同的稻田病害和健康叶片)的 16,225 张标记稻田叶图像。它是最大的由专家注释的视觉图像数据集,用于试验和基准测试计算机视觉算法。水稻叶图像是使用高分辨率(1,080 x 1,440像素)智能手机相机从真实稻田中收集的。在农艺师的帮助下,对收集的图像进行了仔细的清洗和注释。https://paddydoc.github.io 访问稻田医生项目网站了解更多信息。

个人总结

这篇论文介绍了一个水稻病虫害图像数据集,包括了数据的来源和详细信息。这个数据集的主要优点在于其公开性,作者还提到目前正在处理红外图像,期待未来能够进一步公开这些数据。

7. AgriDet: Plant Leaf Disease severity classification using agriculture detection framework(Engineering Applications of Artificial Intelligence,2023, IF=7.5)

摘要:在现代农业领域,植物病害检测在提高作物产量方面起着至关重要的作用。基于图像的技术在植物病害检测研究领域越来越受到关注。然而,由于捕获图像的性质不当,包括导致遮挡、光照、方向和大小问题的不当背景条件,现有方法存在一些问题。此外,在一些实时应用中还会出现成本复杂性、误分类和过拟合问题。为了解决这些问题,我们提出了一种农业检测(AgriDet)框架,该框架结合了传统的 Inception - Visual Geometry Group Network(INC - VGGN)和基于 Kohonen 的深度学习网络,用于检测植物病害并对患病植物的严重程度进行分类。在这个框架中,对图像进行预处理以消除捕获图像中的所有限制。然后,通过提出的多变量 grabcut 算法解决遮挡问题,以实现有效的分割。此外,该框架通过利用改进的基础网络,即预先训练的传统 INC - VGGN 模型,进行准确的病害检测和分类。在这里,预先训练的 INC - VGGN 模型是一个深度卷积神经网络,用于预测植物病害,该模型先前针对独特的数据集进行了训练。将在这个基础网络中预先训练的权重和学习到的特征转移到新开发的神经网络中,以执行我们数据集的植物病害检测特定任务。为了克服过拟合问题,引入了 Dropout 层,并使用 Kohonen 学习层对特征进行深度学习。经过百分比计算,改进的基础网络对训练集中的严重程度类别进行分类。最后,针对不同的性能指标计算框架的性能,并实现比以前模型更高的准确性。此外,验证了统计分析的性能,以在准确性、特异性和敏感性方面证明结果。

个人总结

作者提出了一种农业检测(AgriDet)框架,该框架结合了传统的 INC - VGGN 和基于 Kohonen 的深度学习网络,用于检测植物病害并对患病植物的严重程度进行分类。与其他现有方法相比,AgriDet框架在准确性和损失方面表现更优,能够更准确地学习病害的多尺度特征,减少了误分类。但选择的对比的方法如 INC - VGGN(Chen 等人,2020)、ResNet - 50(He 等人,2016)、VGGNet - 19(Simonyan 和 Zisserman,2015)、DenseNet - 201(Huang 等人,2017)和 Inception V3(Chollet,2017)),我个人认为并不是很新。此外,数据来源于公开数据集,而可用数据集中没有来自实际场景的集成和标记图像,图像是在受控环境中进行训练的。

8. Deep learning based multi-labelled soil classification and empirical estimation toward sustainable agriculture(Engineering Applications of Artificial Intelligence,2023, IF=7.5)

摘要: 农业是印度广大人民的基本职业,也是主要的经济贡献来源。土壤对于为作物提供重要养分及其产量至关重要。确定由粘土、沙子和淤泥颗粒组成的土壤类型,以及它们各自的比例,对于选择合适的作物和识别杂草生长确实具有重要意义。最常用的土壤测定方法是国际移液管法和压力板装置法。在这项研究工作中,我们提出了使用机器学习和深度学习模型进行多类土壤分类的方法,以适当地确定土壤类型,例如多堆叠集成模型和一种新颖的特征选择算法 Q - HOG;因为人工智能已经促进了智能农业的发展。此外,从勘探现场 vridhachalam 收集的图像以及土壤数据集将提高分类精度。考虑了深度学习模型循环神经网络(RNN)、长短期记忆(LSTM)、门控循环单元(GRU)和 VGG16,并对这些不同的深度学习架构以及朴素贝叶斯、KNN、支持向量机等机器学习算法进行了综合评估,并将获得的结果制成表格。提出了一种用于多分类的多堆叠集成模型,该模型采用机器学习和深度学习算法,并通过增加计算时间来评估其性能。在这些模型中,所提出的模型在土壤分类方面表现出色,准确率为 98.96%,精度为 96.14%,召回率为 99.65%,F1 分数为 97.87%。

个人总结

这篇论文的立意是新的。通过搜集不同的土壤类型的图片,来预测土壤的肥力。搜集的图片数量为不到1.4W张图。但是使用的方法,包括引用的方法文献都是相当老的了。数据集也不够大,且没有公开数据集。

9. Evaluating the utility of combining high resolution thermal, multispectral and 3D imagery from unmanned aerial vehicles to monitor water stress in vineyards (Precision Agriculture ,2024, IF=5.585)

摘要:来自无人机(UAV)的高分辨率图像已被确立为进行精确灌溉实践的重要信息来源,对于半干旱地区(如葡萄园)中经常存在的高价值作物尤为相关。许多研究表明,热红外(TIR)传感器在估算冠层温度以了解葡萄生理状态方面的效用,而可见近红外(VNIR)图像和来自红绿蓝(RGB)摄影测量的 3D 点云在更好地监测田间冠层特征以支持农艺实践方面也显示出巨大的潜力。事实上,葡萄树通过一系列生理和生长反应对水分胁迫做出反应,这些反应可能在不同的时空尺度上发生。因此,本研究旨在评估搭载 TIR、VNIR 和 RGB 传感器的无人机在实验葡萄园不同物候期跟踪葡萄水分胁迫的应用。在 2022 年和 2023 年共进行了 12 次无人机飞越,同时收集了原位生理指标(如气孔导度(gs)、叶(Ψleaf)和茎(Ψstem)水势)和冠层特征(如叶面积指数(LAI))。针对原位测量,对线性和非线性模型进行了训练和评估。结果揭示了 TIR 变量在估算生理指标(gs、Ψleaf、Ψstem)方面的重要性,而 VNIR 和 3D 变量对于估算 LAI 至关重要。VNIR 和 3D 变量与水分胁迫指标基本不相关,在训练的经验模型中显示出较低的重要性。然而,使用所有三种变量类型(TIR、VNIR、3D)的模型在跟踪水分胁迫方面始终是最有效的,突出了结合与生理、结构和生长相关的葡萄特征来监测整个葡萄生长期间植被水分状况的优势。本研究强调了结合此类基于无人机的变量来建立与田间水分胁迫指标相关性良好的经验模型的效用,展示了支持农艺实践甚至被纳入基于物理的模型来估算葡萄水分需求和蒸腾作用的巨大潜力。

方法

  1. 案例研究和实验设计

为了在案例研究中引起葡萄水分胁迫的大对比和变异性,我们实施了三种处理,分别施加严重亏缺灌溉(0.2Kc;ETo 的 20%)、典型亏缺灌溉(0.4Kc;ETo 的 40%)和高灌溉实践(0.8Kc;ETo 的 80%)。2022 年和 2023 年的灌溉期从 6 月初开始,到 9 月底结束,考虑到每周累积的降雨量和 ETo,每周对三种处理进行灌溉输入调整。2022 年和 2023 年,0.2Kc、0.4Kc 和 0.8Kc 处理的年平均灌溉输入分别为 93 毫米、194 毫米和 371 毫米。在 2022 年和 2023 年共进行了 12 次无人机飞行,同时收集了原位生理指标(如气孔导度(gs)、叶(Ψleaf)和茎(Ψstem)水势)和冠层特征(如叶面积指数(LAI))。针对原位测量,对线性和非线性模型进行了训练和评估。

  1. 原位测量

在 2022 年和 2023 年的主要葡萄生长期间(6 月至 8 月)进行了 12 次实地调查,以获取无人机图像和原位葡萄生物物理测量数据。在每次处理的三个重复中,每个重复均匀间隔地设置三个永久采样点(即葡萄藤),每次调查共有 27 个实地测量点。在每次实地调查中,使用 Scholander 压力室模型 600(PMS Instruments,Albany,USA。Scholander 等,1965)和 Licor 的 LAI - 2200C(LI - COR Biosciences USA,2011)分别测量每个采样点的正午叶(Ψleaf)和茎(Ψstem)水势以及叶面积指数(LAI)。仅在 2023 年的调查中,使用 LI - 600 气孔计(LI - COR 型号 600,LI - COR Biosciences,Lincoln,NE)额外获取了气孔导度(gs)的原位测量数据(2022 年该仪器不可用)。此外,在实地记录每个采样葡萄藤的物候生长阶段,遵循扩展的 BBCH 量表(Lorenz 等,1995),并在表 1 中列出每次实地调查的模式值。使用 LAI - 2200C(LI - COR Biosciences USA,2011)进行 LAI 测量时,遵循 White 等(2019)为葡萄园建议的协议。因此,在葡萄藤行下方的每个采样点进行四次测量,然后在距离葡萄藤行 1/4、1/2 和 3/4 距离处进行测量,传感器高度约为地面以上 30 厘米,以避免 LAI - 2200 - C 镜头拦截滴灌线。在这种情况下,将四次测量的平均值获得一个 “生态系统级” LAI,同时考虑葡萄藤和行间(有关 LAI 测量协议的更多详细信息,请参见 White 等,2019)。
正午的 Ψleaf、Ψstem 和 gs 与无人机飞越同时在 27 个采样点上进行采集。Ψleaf 和 Ψstem 使用 Scholander 压力室(模型 600)进行采样。对于 Ψleaf,在无人机飞越期间,从每个葡萄藤样品上切下一片发育良好的阳光照射的叶子,Ψstem 样品类似,只是后者在切割前至少一小时用不透明的铝拉链袋覆盖。测量在现场用 Bar 单位进行,但在本研究中转换为 Mpa。同时,使用 LI - 600 气孔计在每个葡萄藤的六个不同叶片样本上测量 gs(三个在上冠层,三个在下冠层)。
除了葡萄藤级别的测量外,在实验的东部边缘安装了一个当地气象站(图 1)。该塔配备了来自 Campbell Scientific(IRGASON,Campbell Scientific,Logan,Utah)的集成开放式路径红外气体分析仪和 3D 声波风速仪,用于测量碳、热和水交换,同时还采样气象标量,如气温、湿度和风速,时间步长为半小时。此外,使用四分量净辐射计(SN - 500 - SS,Apogee,Logan,Utah)测量短波和长波辐射。由于该塔于 2022 年 8 月 3 日安装,因此在塔安装之前的调查活动的气象数据从附近的 Chinchón 气象站(距离研究地点约 10 公里)的西班牙灌溉农业气候信息系统(SIAR,https://servicio.mapagob.es/websiar/)获取。SIAR 数据提供每日数据,但通过线性回归模型调整为无人机飞越时间的特定半小时时间步长和当地条件(见图 11),该模型将 Chinchón 气象站的每日气象数据与 El Socorro 实验农场飞越时间的半小时条件相关联(见图 11)。这对于计算地表与空气温度梯度(dT)最为相关,这是本研究中评估的变量之一。表 1 显示了本研究中每次无人机调查使用的气象条件。

  1. 无人机载荷和图像处理

使用 DJI Matrice 300 无人机(DJI Technology Co.,Ltd,Shenzhen,China)搭载三种不同的传感器获取可见 - 近红外(VNIR)、热红外(TIR)和 RGB 图像:Parrot Sequoia +(Parrot S.A.,Paris,France)、DJI 的 Zenmuse H20T 和 DJI 的 Zenmuse P1。
Sequoia + 相机在绿色(0.48 - 0.52 µm)、红色(0.64 - 0.68 µm)、红边(0.73 - 0.74 µm)和近红外(0.77 - 0.81 µm)光谱区域有四个独立的波段,水平视场角(FOV)为 61.9°,垂直 FOV 为 48.5°。
Zenmuse H20T 是一个辐射热微测辐射热计单波段相机,波段范围在 8 - 14 µm,FOV 为 40.6°,而 Zenmuse P1 是一个配备 35 毫米镜头的 RGB 传感器,以 45 兆像素采集图像,可采样非常高分辨率的 RGB 图像。
在每次调查中,进行两次飞行。首先,在表面上方 40 米处进行一次飞越,同时获取 VNIR 和 TIR 图像,正面和侧面重叠分别为 70% 和 80%,从而得到大约 4 厘米的原生像素分辨率。其次,在表面上方 15 米处捕获 RGB 图像(正面和侧面重叠也分别为 70% 和 80%),通过摄影测量技术获取密集点云,从而得到正射影像的原生像素分辨率约为 0.2 厘米。
无人机图像使用开源摄影测量软件 OpenDroneMap(ODM,https://www.opendronemap.org/)进行处理。原始 TIR H20T 图像瓦片(R - JPEG 格式)首先使用 DJI Thermal SDK 软件(https://www.dji.com/downloads/software/dji - thermal - sdk)转换为单波段辐射温度。然后,这些单独的温度图像瓦片在 ODM 中使用增量结构 - 运动算法和快速近似最近邻(FLANN)匹配器算法进行拼接。同时,使用为 OpenDroneMap 开发的可用例程(https://github.com/OpenDroneMap/ODM/blob/master/opendm/multispectral.py),并遵循 Sequoia(Parrot,2017)的文档,对 Sequoia + 传感器的多光谱图像进行额外的辐射校准,如渐晕、黑电平、增益 / 曝光补偿。RGB 和数字表面模型(DSM)通过 de Castro 等(2018)描述的完全自动处理链生成。

  1. 生成和提取无人机变量

利用了每次调查中获取的 TIR、VNIR 和 3D 图像。对于多光谱 VNIR 数据,计算了不同的植被指数(VIs),利用了所有可用的波段组合和那些最常用于监测植被状态的组合。归一化差异植被指数(NDVI)是应用最广泛的 VI,已被证明与植被密度相关(例如 Gitelson,2004)。优化的土壤调整植被指数(OSAVI,Rondeaux 等,1996)被提出用于限制土壤信号对 NDVI 的影响,特别是对于葡萄园等植被成丛种植在行中的低植被覆盖条件。此外,红边反射率已被证明受冠层结构影响较小,对不同作物类型的 LAI 或叶绿素含量等植被特征敏感(Dong 等,2015;Nguy - Robertson & Gitelson,2015)。因此,我们还检查了红边 NDVI(reNDVI,Gitelson & Merzlyak,1994)和绿色叶绿素指数(CIgreen,Gitelson 等,2003),两者在高 LAI 值时都表现出低饱和问题。此外,我们还测试了植被的近红外反射率。

个人总结

这篇论文将大量的生理数据作为实际值(+ 4分),与无人机获取的多种图像预测值(+3 分)进行对比,以此来反映葡萄的干旱预测准确率。工作量挺大的,也有实际意义。这个期刊经常收录无人机拍摄图像+大田实验这种组合的论文。

10. Lesion-aware visual transformer network for Paddy diseases detection in precision agriculture (European Journal of Agronomy,2023,IF=,4.5)

摘要: 精准农业由传感技术和数据分析的进步推动,为解决水稻病害管理中的挑战提供了有前途的解决方案。水稻病害对作物产量和质量有显著的不利影响,因此需要及时准确的检测以进行有效的病害管理。深度学习已显示出从叶片图像中识别植物病害的潜力,包括水稻作物中的病害。然而,不同类型水稻病害之间的细微差异带来了重大的泛化挑战。在这项研究中,我们首次引入了一种病变感知视觉 Transformer,通过识别区分性病变特征,实现对水稻叶部病害的准确可靠检测。提出了一种新颖的多尺度上下文特征提取网络,能够在不同尺度和通道上捕获疾病特征的上下文局部和全局表示。然后,提出了一个弱监督的水稻病变定位(PLL)单元,以定位水稻叶片中独特的病变,为模型提供区分性的叶片区域,以指导最终的分类决策。提出了一个特征调整单元,以增强全局和局部潜在空间内关系的建模,从而改善水稻叶片视觉语义之间的空间交换。在公共水稻病害数据集上与最先进的解决方案进行的详尽实验比较表明,我们的系统具有平均 98.74%的准确率和 98.18%的 f1 分数的效率和通用性。

个人总结

这篇论文写的挺好的,读起来比较舒服。论文的结构偏向计算机学,写作风格农学。写作能力+1分,提出了新的检测方法+2分,图像分类方法+1分,总分4分。

posted @ 2024-09-25 09:16  落痕的寒假  阅读(33)  评论(0编辑  收藏  举报