ARIO (All Robots In One) 数据集

ARIO是一个大规模多模态具身智能数据集，支持多种机器人形态和任务类型，旨在推动通用机器人智能的发展。

1.0K

下载次数

3.0 TB

数据大小

3.1M

轨迹数量

2025年6月13日

更新日期

摘要

具身人工智能（Embodied AI）正在改变人工智能系统与物理世界交互的方式，但现有的数据集不足以支持开发多功能、通用的智能体。这些限制包括缺乏标准化格式、数据多样性不足以及数据量不够。为了解决这些问题，我们提出了 ARIO（All Robots In One，一体化机器人）数据标准，通过提供统一的数据格式、全面的感知模态，以及真实世界数据与模拟数据的结合，来增强现有数据集。ARIO 的目标是提升具身 AI 智能体的训练效果，使其在各种任务和环境中具备更高的鲁棒性和适应性。

基于该新标准，鹏城实验室联合南方科技大学、中山大学构建了一个大规模具身智能开源数据集，该数据集涵盖了多种机器人形态、多模态感知数据和多样化的任务场景，旨在为通用机器人智能的研究提供丰富的训练和评估资源，包含来自 310 个系列、839620 个任务的大约 300 万个实验记录。ARIO 标准及数据集代表了弥补现有数据资源不足的重要一步。通过提供一个统一的数据收集与表示框架，ARIO 为开发更强大、更通用的具身 AI 智能体奠定了基础，使其能够以更加复杂多样的方式在物理世界中导航和交互。

关键词

具身智能智能体多模态

数据格式

MP4NPZNPYTXTYAML

数据提供者

机构名称: 鹏城实验室多智能体与具身智能研究所

联系邮箱: liulb@pcl.ac.cn; laiwp@pcl.ac.cn; xuwj@pcl.ac.cn; linl01@pcl.ac.cn

数据来源

真实场景采集数据

通过实际机器人在多种真实环境中采集的高质量具身智能数据，包括家庭、办公室、实验室等场景下的物体操作、环境感知等任务数据。

系列数

任务数

2.5K

轨迹数

多场景覆盖真实物理交互丰富传感器数据

仿真平台生成数据

基于先进仿真引擎（如MuJoCo）构建的大规模具身智能数据集，具有可定制化环境参数、可控实验条件和高效数据生成能力。

系列数

任务数

1.7K

轨迹数

可定制化环境可控实验条件高效数据生成

开源数据集转换

将多个开源具身智能数据集（如Open X-Embodiment）转换为统一的ARIO格式，实现跨平台兼容性和数据整合。

255

系列数

839534

任务数

3.1M

轨迹数

跨平台兼容标准化格式开源社区支持

数据模态

📷

RGB图像

多视角高分辨率彩色图像数据，覆盖机器人操作和环境感知的关键视角。

📏

深度图像

精确的深度感知数据，用于三维环境重建和物体定位。

☁️

点云数据

三维点云表示，提供丰富的空间几何信息。

⚖️

惯性测量

IMU传感器数据，记录机器人运动状态和环境物理特性。

🔗

关节状态

机器人各关节位置、速度和力矩信息，反映精确的运动控制。

📝

文本指令

自然语言指令和描述，用于任务理解和人机交互。

👋

触觉数据

机器人末端执行器的触觉传感器数据，提供接触力和物体材质信息。

🔊

音频数据

环境和操作过程中的声音记录，用于多模态感知和交互。

支持的机器人形态

单臂机器人

包括UR5、Franka等工业机器人手臂，专注于物体操作和精密装配任务。

双臂机器人

具有两个协作手臂的机器人系统，支持复杂的双手协调操作任务。

仿人机器人

类人形态的机器人，具有更接近人类的运动和交互能力。

四足机器人

四足移动机器人，擅长在复杂地形中的导航和操作任务。

移动机器人

轮式或履带式移动平台，具备大范围环境探索和操作能力。

数据用途

ARIO数据集包含来自310个系列、839620个任务的大约300万个实验记录，包括了真实场景和仿真场景的机器人操作数据，包含多视角RGB、多视角深度、关节角度、角速度、力矩以及末端夹爪的位姿信息等多模态数据。通过统一的数据格式和多模态信息，ARIO 为开发更强大、更通用的具身 AI 智能体奠定了基础，使智能体能够以更加复杂多样的方式与物理世界进行交互。

数据质量

所有轨迹均为实际场景采集，RGB视频统一使用MP4文件存储，深度信息统一使用npz文件存储，其余各关节以及夹爪的状态信息统一使用txt文件记录。数据集保留原始记录数据的时间戳和状态具体数值，可根据需要自由处理。

浏览数据集文件