原始数据格式
统一为 ROS/MCAP
非ROS标准的数据自动转换为ROS标准格式
数据格式:
sqlite3 格式
mcap 文件包含所有传感器的同步数据,使用MCAP格式存储
topic内容-Topic名称 数据类型
主头部RGBD相机:彩色+深度图像
关节电机数据
标注数据
原始采集+ 仿真以及生成数据
ROS 1 的 .bag 文件格式;
ROS 2 的 rosbag2 录包机制(底层可用 sqlite3 或 mcap 存储)。ROS 2 从 Iron 起默认写成 mcap
数据组织单位 Schema / Channel / Message
Jazzy <- Iron <- humble <- Galactic <-Foxy
Humble Hawksbill(2022.05,LTS)支持到2027年
Iron Irwini (2023.05)
Jazzy Jalisco (2024.05,LTS)支持期至2029年
ROS 2的持续集成版本Rolling版 -滚动发布版本
数据转换
将原始采集的MCAP和JSON数据需要转换为适合机器学习训练的格式
数据集数据格式
LeRobotDataset 遵循结构化组织,将元数据、原始数据和视觉模态分开
2024年5月 推出LeRobot开源代码库
2024年10月4日 LeRobotDataset v2.0。
2025年9月16日 发布 LeRobotDataset:v3
识别v2.1与v3.0格式差异的方法
V3 文件组织结构变革,直接解决了大规模机器人学习数据处理的性能瓶颈
从"单episode单文件"到"多episode文件块"的转变,使存储效率提升40%,加载速度提升3-5倍
LeRobot数据集v3.0通过文件块组织、Parquet元数据和分布式处理架构,彻底解决了大规模机器人学习数据的存储和处理难题
LeRobot 版本
2025年8月2日 发布版本 v0.3.2
2025年11月 LeRobot v0.4.0
2026年3月 LeRobot v0.5.0
数据说明
训练侧需要分别判断“数据格式版本”和“训练框架支持范围”。
先看 dataset 版本:你的数据是 v2.1 还是 v3.0
再看训练框架支持:当前要用的模型、脚本、官方 release 是否支持这个格式
常见情况如下:
Pi0 / OpenPI 流程:很多时候仍会要求 v2.1
LeRobot 新版训练与数据工具:更偏向 v3.0
因此,v2.1 与 v3.0 的选择依据应是
当前数据格式 与 目标训练流程的兼容性,而不是单纯依据 lerobot 软件发布版本
单机迁移
01. lerobot v2.1格式数据集,使用官方转换脚本一键迁移:
python src/lerobot/datasets/v30/convert_dataset_v21_to_v30.py \
--repo-id your_namespace/your_dataset \
--local-dir ./local_dataset_cache
02.迁移后验证与优化
数据结构验证 常见问题处理
参考
https://io-ai.tech/platform/guides/Pipeline/LeRobot/LeRobotV2V3Format/
https://huggingface.co/docs/lerobot/lerobot-dataset-v3
https://www.mintlify.com/NVIDIA/Isaac-GR00T/concepts/data-format
https://huggingface.co/blog/lerobot-datasets-v3