Data_数据-具身智能lerobot数据集格式

原始数据格式

 统一为 ROS/MCAP  
 	 非ROS标准的数据自动转换为ROS标准格式
  数据格式:
      sqlite3 格式
      mcap 文件包含所有传感器的同步数据,使用MCAP格式存储  
    topic内容-Topic名称	数据类型
       主头部RGBD相机:彩色+深度图像
	   关节电机数据
    标注数据
	原始采集+ 仿真以及生成数据
ROS 1 的 .bag 文件格式;
ROS 2 的 rosbag2 录包机制(底层可用 sqlite3 或 mcap 存储)。ROS 2 从 Iron 起默认写成 mcap
    数据组织单位	Schema / Channel / Message	
	   Jazzy <-  Iron <- humble <- Galactic <-Foxy
	Humble Hawksbill(2022.05,LTS)支持到2027年
	Iron Irwini    (2023.05)
	Jazzy Jalisco  (2024.05,LTS)支持期至2029年
 ROS 2的持续集成版本Rolling版	-滚动发布版本

数据转换

将原始采集的MCAP和JSON数据需要转换为适合机器学习训练的格式		

数据集数据格式

LeRobotDataset 遵循结构化组织,将元数据、原始数据和视觉模态分开
  2024年5月 推出LeRobot开源代码库
  2024年10月4日 LeRobotDataset v2.0。
  2025年9月16日 发布 LeRobotDataset:v3
识别v2.1与v3.0格式差异的方法
  V3 文件组织结构变革,直接解决了大规模机器人学习数据处理的性能瓶颈
     从"单episode单文件"到"多episode文件块"的转变,使存储效率提升40%,加载速度提升3-5倍
	LeRobot数据集v3.0通过文件块组织、Parquet元数据和分布式处理架构,彻底解决了大规模机器人学习数据的存储和处理难题 
	
LeRobot 版本
    2025年8月2日 发布版本 v0.3.2
	‌2025年11月    LeRobot v0.4.0‌ 
    2026年3月     LeRobot v0.5.0	

数据说明

训练侧需要分别判断“数据格式版本”和“训练框架支持范围”。
   先看 dataset 版本:你的数据是 v2.1 还是 v3.0
   再看训练框架支持:当前要用的模型、脚本、官方 release 是否支持这个格式
常见情况如下:
    Pi0 / OpenPI 流程:很多时候仍会要求 v2.1
    LeRobot 新版训练与数据工具:更偏向 v3.0
因此,v2.1 与 v3.0 的选择依据应是 
    当前数据格式 与 目标训练流程的兼容性,而不是单纯依据 lerobot 软件发布版本

单机迁移

01. lerobot v2.1格式数据集,使用官方转换脚本一键迁移:
  python src/lerobot/datasets/v30/convert_dataset_v21_to_v30.py \
    --repo-id your_namespace/your_dataset \
    --local-dir ./local_dataset_cache
02.迁移后验证与优化
    数据结构验证 常见问题处理

参考

 https://io-ai.tech/platform/guides/Pipeline/LeRobot/LeRobotV2V3Format/
 https://huggingface.co/docs/lerobot/lerobot-dataset-v3	
 https://www.mintlify.com/NVIDIA/Isaac-GR00T/concepts/data-format
 https://huggingface.co/blog/lerobot-datasets-v3	 
posted @ 2026-04-02 15:12  辰令  阅读(9)  评论(0)    收藏  举报