使用自监督学习重构动态驾驶场景

使用自监督学习重构动态驾驶场景

Reconstructing Dynamic Driving Scenarios Using Self-Supervised Learning

 

从单调的高速公路到日常的邻里旅行,开车往往平淡无奇。因此,在现实世界中收集的许多用于自动驾驶汽车(AV)开发的训练数据都严重偏向于简单的场景。

这对部署健壮的感知模型提出了挑战。AV必须经过彻底的训练、测试和验证,才能处理复杂的情况,这需要大量的数据来覆盖这些场景。

 

图1. EmerNeRF重构动态驾驶场景实例

模拟提供了一种在现实世界中寻找和收集此类数据的替代方案,这将是令人难以置信的时间和成本密集型。然而,大规模生成复杂、动态的场景仍然是一个重大障碍。

在最近发布的一篇论文中,NVIDIA Research展示了一种新的基于神经辐射场(NeRF)的方法,即EmerNeRF,如何使用自监督学习来准确生成动态场景。

在最近发布的一篇论文中,NVIDIA Research展示了一种新的基于神经辐射场(NeRF)的方法,即EmerNeRF,如何使用自监督学习来准确生成动态场景。通过自我监督训练,EmerNeRF不仅在动态对象方面优于其他基于NeRF的方法,而且在静态场景方面也优于其他方法。有关更多详细信息,请参见EmerNeRF:通过自我监督进行突发时空场景分解。

当与类似的NeRF一起运行EmerNeRF时,它将动态场景重建精度提高了15%,静态场景重建精度增加了11%,此外,新视图合成的精度提高了12%。

解决基于NeRF的方法的局限性

NeRF拍摄一组静态图像,并将其重建为逼真的3D场景。它们使从驾驶日志中创建高保真度模拟成为可能,用于闭环深度神经网络(DNN)的训练、测试和验证。

然而,目前基于NeRF的重建方法难以处理动态对象,并且已被证明难以缩放。例如,虽然一些方法可以生成静态和动态场景,但它们需要地面实况(GT)标签才能生成。这意味着必须使用自动标记技术或人工注释器准确地勾勒和定义驾驶日志中的每个对象。

其他NeRF方法依赖于附加的模型来实现关于场景的完整信息,例如光流。

为了解决这些限制,EmerNeRF使用自监督学习将场景分解为静态、动态和流场。该模型从原始数据中学习关联和结构,而不是依赖于人类标记的GT注释。然后,它同时渲染场景的时间和空间方面,消除了对外部模型填补空白的需要,同时提高了准确性。

因此,虽然其他模型倾向于以较低的精度生成过度平滑的渲染和动态对象,但EmerNeRF重建高保真背景场景和动态对象的同时,保留了场景的精细细节。

表1. 将EmerNeRF与其他基于NeRF的动态场景重建方法进行比较的评估结果,分为场景重建和新视图合成的性能。

 

表2. EmerNeRF与其他基于NeRF的静态场景重建的比较评估结果。

 

EmerNeRF方法

使用自我监督学习,而不是人工注释或外部模型,使EmerNeRF能够绕过以前方法遇到的挑战。

 

图3. EmerNeRF分解和重建管道

EmerNeRF旨在将场景分解为动态和静态元素。在分解场景时,EmerNeRF还从动态对象(如汽车和行人)中估计流场,并使用该场通过聚合跨时间的特征来进一步提高重建质量。其他方法使用外部模型来提供这种光流数据,这通常会导致不准确。

通过同时组合静态、动态和流场,EmerNeRF可以自我充分地表示高度动态的场景,这提高了准确性,并能够扩展到通用数据源。

为基础模型添加语义理解

使用基础模型进行额外监督,EmerNeRF对场景的语义理解得到了进一步加强。基础模型对物体(例如特定类型的车辆或动物)有广泛的了解。

 

 

参考文献链接

https://developer.nvidia.com/blog/reconstructing-dynamic-driving-scenarios-using-self-supervised-learning/

 

posted @ 2024-02-04 03:59  吴建明wujianming  阅读(26)  评论(0编辑  收藏  举报