KITTI数据集解析

KITTI Dataset

1 简介

KITTI 数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。该数据集用于评测立体图像 (stereo),光流(optical flow),视觉测距(visual odometry),3D 物体检测(object detection) 和 3D 跟踪 (tracking) 等计算机视觉技术在车载环境下的性能。KITTI 包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多达 15 辆车和 30 个行人,还有各种程度的遮挡与截断。 3D 目标检测数据集由 7481 个训练图像和 7518 个测试图像以及相应的点云数据组成,包括总共 80256 个标记对象。

下图红色框标记的为我们需要的数据,分别是彩色图像数据(12GB)、点云数据(29GB)、相机矫正数据(16MB)、标签数据(5MB)。其中彩色图像数据、点云数据、相机矫正数据均包含 training(7481)和 testing(7518)两个部分,标签数据只有 training 数据。

官网下载地址为:http://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchmark=3d

SLAM公开数据集下载链接:https://www.sohu.com/a/219232053_715754

1.1 数据采集平台

1.1

​ 图 1.1 3D 物体的观察角和方位角

如图 1.1 所示,KITTI 数据集的数据采集平台装配有 2 个灰度摄像机,2 个彩色摄像机,一个 Velodyne 64 线 3D 激光雷达,4 个光学镜头,以及 1 个 GPS 导航系统。具体的传感器参数如下:

1.2

​ 图 1.2 传感器布置图

传感器布置平面图如图 1.2 所示。为了生成双目立体图像,相同类型的摄像头相距 54cm 安装。由于彩色摄像机的分辨率和对比度不够好,所以还使用了两个立体灰度摄像机,它和彩色摄像机相距 6cm 安装。

1.2 坐标系

1.3

​ 图 1.3 物体坐标系

  • camera: x = right, y = down, z = forward
  • velodyne: x = forward, y = left, z = up
  • GPS/IMU: x = forward, y = left, z = up

2 数据解析

2.1 image 文件

image 文件以 8 位 PNG 格式存储,图集如下:

2.2 velodyne 文件

velodyne 文件是激光雷达的测量数据(绕其垂直轴(逆时针)连续旋转),以 “000001.bin” 文件为例,内容如下:

7b14 4642 1058 b541 9643 0340 0000 0000
46b6 4542 1283 b641 3333 0340 0000 0000
4e62 4042 9643 b541 b072 0040 cdcc 4c3d
8340 3f42 08ac b541 3bdf ff3f 0000 0000
e550 4042 022b b841 9cc4 0040 0000 0000
10d8 4042 022b ba41 4c37 0140 0000 0000
3fb5 3a42 14ae b541 5a64 fb3f 0000 0000
7dbf 3942 2731 b641 be9f fa3f 8fc2 f53d
cd4c 3842 3f35 b641 4c37 f93f ec51 383e
dbf9 3742 a69b b641 c3f5 f83f ec51 383e
2586 3742 9a99 b741 fed4 f83f 1f85 6b3e			  

点云数据以浮点二进制文件格式存储,每行包含 8 个数据,每个数据由四位十六进制数表示(浮点数),每个数据通过空格隔开。一个点云数据由四个浮点数数据构成,分别表示点云的 x、y、z、r(强度 or 反射值),点云的存储方式如下表所示:

2.3 calib 文件

calib 文件是相机、雷达、惯导等传感器的矫正数据。以 “000001.txt” 文件为例,内容如下:

P0: 7.215377000000e+02 0.000000000000e+00 6.095593000000e+02 0.000000000000e+00 0.000000000000e+00 7.215377000000e+02 1.728540000000e+02 0.000000000000e+00 0.000000000000e+00 0.000000000000e+00 1.000000000000e+00 0.000000000000e+00
P1: 7.215377000000e+02 0.000000000000e+00 6.095593000000e+02 -3.875744000000e+02 0.000000000000e+00 7.215377000000e+02 1.728540000000e+02 0.000000000000e+00 0.000000000000e+00 0.000000000000e+00 1.000000000000e+00 0.000000000000e+00
P2: 7.215377000000e+02 0.000000000000e+00 6.095593000000e+02 4.485728000000e+01 0.000000000000e+00 7.215377000000e+02 1.728540000000e+02 2.163791000000e-01 0.000000000000e+00 0.000000000000e+00 1.000000000000e+00 2.745884000000e-03
P3: 7.215377000000e+02 0.000000000000e+00 6.095593000000e+02 -3.395242000000e+02 0.000000000000e+00 7.215377000000e+02 1.728540000000e+02 2.199936000000e+00 0.000000000000e+00 0.000000000000e+00 1.000000000000e+00 2.729905000000e-03
R0_rect: 9.999239000000e-01 9.837760000000e-03 -7.445048000000e-03 -9.869795000000e-03 9.999421000000e-01 -4.278459000000e-03 7.402527000000e-03 4.351614000000e-03 9.999631000000e-01
Tr_velo_to_cam: 7.533745000000e-03 -9.999714000000e-01 -6.166020000000e-04 -4.069766000000e-03 1.480249000000e-02 7.280733000000e-04 -9.998902000000e-01 -7.631618000000e-02 9.998621000000e-01 7.523790000000e-03 1.480755000000e-02 -2.717806000000e-01
Tr_imu_to_velo: 9.999976000000e-01 7.553071000000e-04 -2.035826000000e-03 -8.086759000000e-01 -7.854027000000e-04 9.998898000000e-01 -1.482298000000e-02 3.195559000000e-01 2.024406000000e-03 1.482454000000e-02 9.998881000000e-01 -7.997231000000e-01

2.4 label 文件

label 文件是 KITTI 中 object 的标签和评估数据,以 “000001.txt” 文件为例,包含样式如下:

image-20210204165656396

每一行代表一个 object,每一行都有 16 列分别表示不同的含义,具体如下:

  • 第 1 列(字符串):代表物体类别(type)
    总共有 9 类,分别是:Car、Van、Truck、Pedestrian、Person_sitting、Cyclist、Tram、Misc、DontCare。其中 DontCare 标签表示该区域没有被标注,比如由于目标物体距离激光雷达太远。为了防止在评估过程中(主要是计算 precision),将本来是目标物体但是因为某些原因而没有标注的区域统计为假阳性 (false positives),评估脚本会自动忽略 DontCare 区域的预测结果。

  • 第 2 列(浮点数):代表物体是否被截断(truncated)
    数值在 0(非截断)到 1(截断)之间浮动,数字表示指离开图像边界对象的程度。

  • 第 3 列(整数):代表物体是否被遮挡(occluded)

    整数 0、1、2、3 分别表示被遮挡的程度。

  • 第 4 列(弧度数):物体的观察角度(alpha)

    取值范围为:-pi ~ pi(单位:rad),它表示在相机坐标系下,以相机原点为中心,相机原点到物体中心的连线为半径,将物体绕相机 y 轴旋转至相机 z 轴,此时物体方向与相机 x 轴的夹角,如下图所示。(camera:z向上,y向内 ,x向右)

  • 第 5~8 列(浮点数):物体的 2D 边界框大小(bbox)

    四个数分别是 xmin、ymin、xmax、ymax(单位:pixel),表示 2 维边界框的左上角和右下角的坐标。

  • 第 9~11 列(浮点数):3D 物体的尺寸(dimensions)

    分别是高、宽、长(单位:米)

  • 第 12-14 列(浮点数):3D 物体的位置(location)

    分别是 x、y、z(单位:米),特别注意的是,这里的 xyz 是在相机坐标系下 3D 物体的中心点位置。

  • 第 15 列(弧度数):3D 物体的空间方向(rotation_y)

    取值范围为:-pi ~ pi(单位:rad),它表示,在照相机坐标系下,物体的全局方向角(物体前进方向与相机坐标系 x 轴的夹角),如图 1 所示。

  • 第 16 列(浮点数):检测的置信度(score)

    要特别注意的是,这个数据只在测试集的数据中有(待确认)。

参考文章

https://blog.csdn.net/u013086672/article/details/103913361
https://blog.csdn.net/lovely_yoshino/article/details/105814646?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-2&spm=1001.2101.3001.4242

posted @ 2022-06-27 22:31  qufang  阅读(1929)  评论(0)    收藏  举报