智驾实习有感
去年保研结束,11月开始投实习,1月入职小米智驾(决策规划方向),打杂两个月,由于对基于规则的决策规划一点不懂,所以很难学到很多东西,但是对智驾的决策方向有了一个大概的了解。以及个人事务原因,遂跑路。具体学到的东西就不细讲了,也没啥好讲的,dirty work有啥讲头?
面经见xhs:83 momo发布了一篇小红书笔记,快来看吧! 😆 2vB8oWUuK38wFph 😆 http://xhslink.com/a/JCqbrSCC3jBeb,复制本条信息,打开【小红书】App查看精彩内容!
然后回到学校,在学校附近找了个中小智驾厂,视觉感知方向,虽然也会有打杂的活,但是还是学到不少东西。
了解过行车感知、泊车感知。泊车感知仅仅帮忙处理了波数据(数据标签统计/可视化/验证),大概知道有哪些任务?(基于IPM的停车位和各种杂物的分割、分类、检测)
主要跟着mentor干行车视觉,主要任务是目标检测(其他车辆、人群、障碍物等),好像公司也有车道线检测的,但是不归我们干。
学习了mono3d模型、fcos3d模型,我们主要用的行车模型是这个,也了解过一点现在比较火热的也有 Sparse4d v3模型,各大公司都在引进使用,性能也很不错,貌似应该是可能是最常用先进有效的模型了,mono3d的话可能更轻便和一些边缘检测辅助之类的。
具体总结一下自己干的一些活:一开始是让我学习坐标系转换(这个貌似是感知的入门基础),读mono3d的代码,fcos3d代码,然后让我处理一些评估模型的任务,针对一些已经有的模型结果和标签进行评估性能。
然后后面处理了几波我们想要买的数据,进行数据可视化验证,数据标签统计,貌似最后没买(budong)。
然后开始让我来训练模型,看看模型有无可以改进的地方,mentor给了我篇论文,PGD的,概率与几何深度估计方法(PGD, Probabilistic and Geometric Depth),让我在我们的fcos3d上面加上去,提高效果,
然后我开始读论文,让gpt帮我加上去这个head模块,PGD 的三个部分DP、DL、DG,最后我只加了两个上去DP和DL,DG涉及到视角几何关系传播深度有点不会,论文也说DP+DL性能已经不错提升了,所有就先开始训练,一开始loss居高不下,或者是一开始很高,折腾几天,发现问题,论文里面的使用的都是smoothL1的loss,我loss_depth使用的好像是连续深度高斯负对数似然损失 (NLL),loss_depth_fushed一开始使用的是mse_loss(这个loss真的害人),后面都改成了smoothl1_loss,也加入了归一化操作,loss才开始和谐下来。总得来说,如果后续想要真的干智驾视觉感知方向,想进大厂,那Sparse4d v3模型肯定是必须要很会(这样会很吃香,不过挺难的,听说组里清华爷读懂论文和代码都花了一两个月多),目前我是学会了mono3d,算是对简历和后续找实习有帮助,不过我研究生科研方向与智驾无关,只能看我能不能接着找好的实习,或者转方向,智驾视觉的岗确实不多,而且一般是车企开,我可能还是更想要去卷互联网?现在互联网与cv相关的岗,貌似只有多模态、aigc?纯cv的岗已死绝。研究生方向可能会与大模型相关,也许可以试试视觉语言大模型VLM?
技多不压身,有这俩段智驾实习经历总不是坏事,人生就是要多种尝试多种活法多种方向,就算是到时候从头来过,也希望自己能有重新开始的勇气,而不是在一条末路上死磕,加油。
每个人
都应该有一场不辜负心灵的旅程
尝试和自己和解
感受在路上不一样的自我
轻触不可及的晚霞
丈量无边的荒原
纵使风吹日晒
也应该自由自在
远方不一定有你想要的结果
但停在原地一定没有头绪
当你不再跟自己较劲
任由世事自然地穿越生命
你会发现
所有糟糕的人和事
终已成为你成长的契机
内心强大不是控制一切
而是允许一切
未来藏在迷雾中
隔着距离
叫人看来胆怯
但当你踏足其中
就会云开雾散

浙公网安备 33010602011771号