2024 年 3月 24 日随笔档案 - AutoDriver

2024年3月24日

摘要：三维刚体运动的数学表示：旋转平移矩阵、旋转向量、欧拉角、四元数、轴角模型、齐次坐标、各种变换等照相机模型：单目/双目模型，单目中的世界坐标系/相机坐标系/图像坐标系的互相转换、畸变与矫正，双目涉及的视差和深度的反比关系、基线，鱼眼模型和校正等图像变换：线性变换、仿射变换、透视（投影变换）图像相似度评价指标：SSIM/PSNR/MSE、平滑损失、ξ等。参考：《视觉SLAM十四讲》阅读全文

posted @ 2024-03-24 16:14 AutoDriver 阅读(451) 评论(0) 推荐(0)

解决长尾问题，BEV-CLIP：自动驾驶中复杂场景的多模态BEV检索方法

摘要：自动驾驶中对复杂场景数据的检索需求正在增加，尤其是随着乘用车已经具备了在城市环境中导航的能力，必须解决长尾场景问题。同时，在已有的二维图像检索方法下，场景检索可能会出现一些问题，如缺乏全局特征表示和亚层次文本检索能力。为了解决这些问题，作者提出了BEV-CLIP，这是第一种多模态BEV检索方法，它利用描述性文本作为输入来检索相应的场景。该方法利用大型语言模型（LLM）的语义特征提取能力，促进零样本检索大量文本描述，并结合知识图中的半结构化信息，提高语言嵌入的语义丰富性和多样性。实验结果表明在NuScenes数据集上，文本到BEV特征检索的准确率为87.66%。论文中的示例支持本文的检索方法也被证明在识别某些长尾场景方面是有效的！阅读全文

posted @ 2024-03-24 16:07 AutoDriver 阅读(617) 评论(0) 推荐(0)

autodriver

公告