为什么说传统SLAM已死?

微信视频号:sph0RgSyDYV47z6

快手号:4874645212

抖音号:dy0so323fq2w

小红书号:95619019828

B站1:UID:3546863642871878

B站2:UID: 3546955410049087

自己的研究课题是SLAM,发现SLAM发论文很难,甚至在投稿时遇到了编辑回复:深度学习SLAM已经很厉害了,传统SLAM没有研究价值。但据我所知目前的深度学习SLAM在各项指标上还是比不过传统SLAM。另外虽然SLAM已有30多年的历史,但目前产业落地依然是难题。

有人说目前VLA,VLN的研究已经不需要建图了。但我虽然理解神经网络在给出目标后可以靠隐式表达地图规划路径,不过这种特性显然不能应用在大规模场景中,而且明显每换一个场景就需要训练,除非网络输出一个隐式表达地图然后靠这个地图定位(我见过这个方向的研究)。

建图定位才是统一的解决方案啊?为什么总是听说SLAM已死,找工作也不好找?(补充一点,我个人认为目前机器人要脱离遥控的方向就是SLAM+VLA,总之离不开建图,为啥岗位会减少呢?)

Immortalqx的回答

SLAM似乎处于一个比较尴尬的阶段。

工业界,SLAM似乎“不被需要”了,自动驾驶的岗位需求减少了,而且SLAM的应用似乎更偏向于“标注”,而不再是导航定位了。一些具身智能的初创倒是招聘做SLAM的同学,不过不太清楚他们怎么用SLAM。

学术界,近几年的SLAM大部分都是围绕NeRF、3DGS建图,或者围绕如何利用3D Foundation Model来展开的研究。个人觉得这些工作离落地就比较远了,这些方法都很难做到real-time,不太适合放到机器人上来用。

传统SLAM还是有很多没有解决的问题,举一个例子,内参随时间变化的时候怎么做SLAM,或者VIO?比如我用手机绕着一个物体拍视频,中间我觉得自己走远了,于是我进行了一下缩放,那么手机上跑的VIO怎么准确的估计pose呢?最近NeurIPS有篇工作《InFlux: A Benchmark for Self-Calibration of Dynamic Intrinsics of Video Cameras》,涉及到了这种手机拍视频变焦的情况。

再举一个例子,对于多目的SLAM,添加新的相机,应该是能给SLAM带来增益的,但是如果相机之间的相对位置一直在改变呢?比如人形机器人头顶一个相机、身体一个相机、手臂上还有相机,我们只用身体的相机做SLAM吗?还是尝试把所有相机都利用起来呢?不过这两个例子可能太极端了,已经涉及到SLAM长期依赖的一些假设了,比如我们提前标定好内外参数,那么跑SLAM的时候,内外参数应该是不变的,而对于多相机系统来说,相机应该是同步触发的。抛开这些涉及到基本假设的方向,我也想不出传统SLAM还有什么可以做的地方了,也许,引入一些新的传感器?

再看“VLA、VLN不需要建图”这个问题,很遗憾,我是做3DGS SLAM的,只对3dgs、视觉SLAM稍微有了解,今年我参加了空间智能论坛,有听到讲者说VLA泛化性的问题,大概意思是以前的工作都是一个网络解决VLA问题,但是他们尝试了用大网络+小网络来解决,大网络用来理解空间,小网络用来执行操作,而且面对新场景,他们只需要训练或者微调小网络,我不记得工作名字和具体的内容了,当时的印象大概是这么一回事。

那我就产生了一个很奇妙的想法,如果未来隐式表达的地图表示方法真的成为了主流,那会不会出现“黑哥哥们的语言是不互通”(bushi)的情况,比如单机已经能成功跑通了,甚至做到了实时的学习微调,那么如果两台机器各自“经历一些事情”之后,他们的embeddings表示有差异了怎么办?怎么来做多机协同?

很可惜我不太懂这个领域,我不确定会不会真的有这种情况,不过我感觉显示表示作为基础,结合一些隐式表示的方法,可能是近几年最佳的解决方案。毕竟,机器人最后还是要服务于人的,显示表示显然更有利于人看懂地图、下达指令、和机器人交互,而结合隐式表示,也许可以让机器人更好执行任务。

今年字节seed发布了一篇技术报告《Astra: Toward General-Purpose Mobile Robots via Hierarchical Multimodal Learning》,这篇工作的地图是显式的、结构化的,可以看看论文的“3.1.1 Offline Mapping”章节。我对这篇工作的看法是,这篇工作说明目前机器人的路线还是不确定的,没有说一定要显式或者隐式的地图才能XXXXXX,我们可以探索VLN,也可以探索如何显式的构建地图然后用multimodal LLM做导航,可以端到端也可以模块化。这件事情既然还不确定、还有争议,那它一定值得我们来探索和研究。

老码农的回答

我觉得传统slam并没有死,相反基于深度学习的也无法活的太久。

nerf虽然理论优美完美契合深度学习,但太慢,费卡,没法实用。

3dgs,官方几个demo竟然需要几百张照片,因为基于椭球染,空间中到处是可见椭球,最重要的很少有人真正做出demo的效果,这个花费我很多精力研究理论代码,最后只不过是个toy。

vggt,以及那些DepthAnything,能预测出一些深度图,但精度远远不够,就算做个简单的杯子也歪歪扭扭不成型。

混元,tripoai,前者投入不少钱,后者拿到不少钱,但他们都基于原始开源项目zero-123,一张图重建,号称革命游戏动画电影,实际精度远远不够,生成个中间残次品,不如建模师从头捏。

sam3d,最近facebook这个吹上天的单图重建,跟那个混元没有本质效果区别,但稍微好了些对实物精度依然不够。

深度学习变成无脑堆数据,在搜广推及11m中是可以的,但若要求建模精度在0.1mm,这些毫无理论的粗旷方法也是达不到的。

但在自动驾驶领域吧,那些端到端也是适合的,自动驾驶对数据精度要求没那么高,从人的驾驶行为中学习路径规划也是合理的、这是传统规则做不到的。

Ryan的回答

经过几日的总结,我自己发现了这个问题的原因。我自己来回答一下这个问题。先总结:技术落地难,企业挣不到钱。

SLAM分为传统SLAM和目前基于深度学习的SLAM。根据功能分又分为建图定位SLAM以及三维重建SLAM。要分析这个问题抓住了一条企业能不能用来挣钱。完全基于深度学习的SLAM就不必说了。例如MASt3R-SLAM, VGGT-long等,效果很惊艳,但目前仅在学术领域崭露头角,工程应用还需要探索。

而传统SLAM,用于实际应用有很多长尾问题需要解决,实际落地较难。这导致企业投入较大,产出较小。企业挣不到钱,自然工资不会很高。这造成了SLAM领域一个很奇怪的现象,明明学习SLAM既需要较好的编程经验,又需要学习相机模型,相机标定,惯导模型,BA优化,各种优化库,李群李代数等各种繁杂又有难度的知识,但其工资却比不过一个链式求导规则到处应用的深度学习。从而导致论坛帖子到处都是“SLAM狗都不学”的劝退之声。

这里我们会发现:技术不是难度越大,工资越高。我们需要看看能不能轻易变现。而三维重建SLAM由于仅需建好图,视觉效果好,就可以进行宣传与使用。不需要解决长尾问题,使得落地难度小,变现快,企业更喜欢。

刚说了落地难的问题,再说应用场景收窄的问题。前几年因为VR和自动驾驶的火爆,导致岗位增多,但最近因为VR领域变冷,自动驾驶又开始使用无图端到端技术。导致SLAM的用武之地进一步减少。目前使用较多的地方大多是移动机器人领域,例如扫地机器人,人形机器人,无人机,工厂的VGA等。这导致了工作岗位少,毕业学生多,供大于求的情况。

基于以上的情况,SLAM现在处于一个负反馈闭环环,有问题还没解决。导致企业变现难。导致研究投入少,导致有问题还没解决。

以我短浅的目光来看,目前要打破这个局面的一个可能是:具身智能的火爆引发资本发现要脱离遥控的基础技术是SLAM,从而加大投入。但目前来看也仅仅只有这一个需求应用。这个问题解决泡沫就会迅速褪去。不会像深度学习技术一样,在语音,视觉,自然语言处理,等多个领域扩展为众多子领域遍地开花。

总结一下就是,SLAM难入门,应用场景相对缩小,企业变现难,即使突然火起来,也不会持续太久,技术问题解决热度就会褪去。

Biang哥的回答

我说的不一定对,有不准确的还请大佬们提醒

我觉得slam的一个问题是相比较于曾经寄期望的领域比如自动驾驶,这个技术的效果回报率太低了:很多时候需要花费大量精力时间去解决小概率的corner case,虽然它们发生的概率较小但是一旦发生了可能就是不可承受的后果,再加上随着环境变化corner case是做不完的,你的策略总需要去照顾这些积累下来的问题,也就是投入不成比例的精力去做那些边角料(而且正常的运行条件都不一定能做明白)。

而slam导航的amr设备现在要求相对比较低,本身它的工况就是人机协作在一块场地,速度提不起来也就是2-4m/s以下,场景很容易做适配改造比如减少反光材质保证点云质量去掉噪点,最后难点不在导航而是设备本身的降本。可能不需要那么多人做很多的开发。

现在只能跟着robotics(如果amr不算机器人的话)要口饭吃。

daydayupzhang的回答

从学术上来讲,应该说是传统SLAM近期的新理论新发展比较少了,现有的库工程优化很强,能够形成创新点且容易实现的点变少了。相比而言,大模型、VLN等路线处于有一定前景但还不成熟的阶段,正适合学术探索。

从找工作上来讲,应该说是SLAM供大于求了,需要SLAM的岗位没有增加还减少了,但学SLAM的人还在增加,前些年SLAM火爆的时候入局的人数基数也比较大。

 

 

微信视频号:sph0RgSyDYV47z6

快手号:4874645212

抖音号:dy0so323fq2w

小红书号:95619019828

B站1:UID:3546863642871878

B站2:UID: 3546955410049087

 

参考文献

为什么说传统SLAM已死?

posted @ 2025-12-17 06:58  吴建明wujianming  阅读(24)  评论(0)    收藏  举报