MultiOrg:一个包括 400 多张高分辨率 2D 显微镜图像和 60,000 多个类器官的精选注释。为具有不确定性量化的对象检测任务量身定制的综合类器官数据集

2024-10-19,由德国Helmholtz慕尼黑研究中心的团队创建的MultiOrg数据集,是专门针对目标检测任务而设计的,包含了超过400张高分辨率的2D显微镜图像和超过60,000个类器官的标注,特别地,它包含了由两位专家在不同时间点独立标注的三组测试数据标签,为量化标注不确定性提供了新的视角。

 

一、研究背景:

在生物医学图像分析领域,自动化的器官类器官(organoids)量化分析对于推动药物发现、疾病预测和个性化医疗具有重要意义。器官类器官是体外从干细胞培养出的三维微型器官模型,它们模拟了真实器官的复杂性和功能,对于医学研究、疾病建模和药物测试具有极高的价值。然而,手动标注这些在显微镜图像中的类器官是一项劳动密集型且主观性强的工作,这限制了高通量图像分析的效率。

 

目前遇到困难和挑战:

1、高通量实验产生的大量图像需要快速和客观的检测、量化和跟踪方法,而手动标注不仅耗时,而且容易出错和产生偏见。

2、类器官在大小、形状和外观上的高度变异性,以及在培养过程中可能出现的重叠结构,使得它们难以与图像中的尘埃和碎片区分开来。

3、缺乏开放的生物医学数据集,尤其是那些尝试量化标注不确定性的数据集,限制了机器学习和深度学习算法在这一领域的应用和发展。

数据集地址:MultiOrg|生物医学图像分析数据集|器官检测数据集

 

二、让我们一起来看一下MultiOrg数据集

MultiOrg是一个为器官类器官目标检测任务量身定制的综合性数据集,包含了来自26个不同研究的411张亮场显微镜图像,涵盖了由小鼠细胞衍生的肺类器官,以及多组由不同专家独立标注的测试数据标签,用于量化标注的不确定性。

 

数据集构建 :

包括了图像采集、图像拼接、最大投影处理以及由两位专家在不同时间点进行的标注工作。此外,数据集中的图像和标注信息都经过了匿名化处理,以确保数据的安全性和可用性。

 

数据集特点 :

最大特点是提供了三组独立的测试数据标签,这些标签由两位专家在不同时间点独立标注,从而允许研究者量化标注噪声,并探索标注偏差对模型训练的影响。

研究人员使用提供的基准测试来训练和测试不同的目标检测模型。此外,数据集还提供了一个基于Napari的交互式插件,允许用户在提取有用特征之前,对检测到的类器官进行可视化和校正。

 

基准测试 :

在MultiOrg数据集上测试了四种广泛使用的目标检测深度学习模型,包括Faster R-CNN、SSD、YOLOv3和RTMDet。这些模型在不同的标注集上的表现差异,展示了在存在标注噪声时深度学习模型的鲁棒性。

 

三、让我们一起展望数据集应用:

比如,我是一个生物实验室的研究员,我的工作是研究肺病的发展和药物的效果。

我的日常工作就是那种典型的实验室苦力活儿。每天,我得盯着显微镜,观察那些培养皿里的肺类器官。我的工作就是数数,看每个培养皿里长了多少个类器官。这活儿听起来简单,但真的超级耗时,还容易出错。你想啊,那些类器官长得又小,有时候还挤成一团,眼睛都看花了。 而且,我们实验室的数据量特别大,每天都有成千上万张图片等着我去数。我得一张一张地看,一个一个地数,这工作量简直了。有时候数到深夜,眼睛都睁不开了,还数不完。这还不算,手动计数的结果还不一定准确,有时候第二天复核,发现前一天的数据错得离谱,那感觉,那感觉,真是崩溃啊,欲哭无泪。

现在有了MultiOrg数据集训练AI模型,嘻嘻,大不一样。

这个数据集太强大了,它里面有400多张高分辨率的图像,还有60,000多个类器官的标注。最棒的是,这些标注是两个专家在不同时间点做的,这样我们就能训练AI去理解和处理这种标注上的不确定性。

现在啊,每天早上,我来到实验室,先喝杯咖啡,然后打开电脑,启动我们训练好的AI模型。我把新的一批图像导入系统,然后,魔法就发生了!AI模型开始自动分析这些图像,识别出每一个类器官,并且把它们的数量计算出来。 我只需要盯着屏幕,看AI工作就行了。它处理图像的速度超级快,而且准确率还高。我再也不用一张一张地数了,也不用担心数错的问题。如果AI识别的结果有疑问,我还可以手动调整一下,但这种情况很少。

因为有了这个智能系统,我节省了大量的时间。我现在可以把更多的精力放在分析数据和设计实验上,这才是我真正热爱的工作嘛。这才是真正的科研,不是吗?

 

更多开源的数据集,请打开:遇见数据集

https://www.selectdataset.com/

 

posted @ 2024-10-23 10:18  数据猎手小k  阅读(96)  评论(0)    收藏  举报  来源