ARIO (All Robots In One) 数据集

ARIO (All Robots In One) 数据集

ARIO是一个大规模多模态具身智能数据集,支持多种机器人形态和任务类型,旨在推动通用机器人智能的发展。

1.0K
下载次数
3.0 TB
数据大小
3.1M
轨迹数量
2025年6月13日
更新日期

摘要

具身人工智能(Embodied AI)正在改变人工智能系统与物理世界交互的方式,但现有的数据集不足以支持开发多功能、通用的智能体。这些限制包括缺乏标准化格式、数据多样性不足以及数据量不够。为了解决这些问题,我们提出了 ARIO(All Robots In One,一体化机器人)数据标准,通过提供统一的数据格式、全面的感知模态,以及真实世界数据与模拟数据的结合,来增强现有数据集。ARIO 的目标是提升具身 AI 智能体的训练效果,使其在各种任务和环境中具备更高的鲁棒性和适应性。

基于该新标准,鹏城实验室联合南方科技大学、中山大学构建了一个大规模具身智能开源数据集,该数据集涵盖了多种机器人形态、多模态感知数据和多样化的任务场景,旨在为通用机器人智能的研究提供丰富的训练和评估资源,包含来自 310 个系列、839620 个任务的大约 300 万个实验记录。ARIO 标准及数据集代表了弥补现有数据资源不足的重要一步。通过提供一个统一的数据收集与表示框架,ARIO 为开发更强大、更通用的具身 AI 智能体奠定了基础,使其能够以更加复杂多样的方式在物理世界中导航和交互。

关键词

具身智能智能体多模态

数据格式

MP4NPZNPYTXTYAML

数据提供者

机构名称: 鹏城实验室多智能体与具身智能研究所

联系邮箱: liulb@pcl.ac.cn; laiwp@pcl.ac.cn; xuwj@pcl.ac.cn; linl01@pcl.ac.cn


数据来源

真实场景采集数据

通过实际机器人在多种真实环境中采集的高质量具身智能数据,包括家庭、办公室、实验室等场景下的物体操作、环境感知等任务数据。

50
系列数
51
任务数
2.5K
轨迹数
多场景覆盖真实物理交互丰富传感器数据

仿真平台生成数据

基于先进仿真引擎(如MuJoCo)构建的大规模具身智能数据集,具有可定制化环境参数、可控实验条件和高效数据生成能力。

5
系列数
35
任务数
1.7K
轨迹数
可定制化环境可控实验条件高效数据生成

开源数据集转换

将多个开源具身智能数据集(如Open X-Embodiment)转换为统一的ARIO格式,实现跨平台兼容性和数据整合。

255
系列数
839534
任务数
3.1M
轨迹数
跨平台兼容标准化格式开源社区支持

数据模态

📷

RGB图像

多视角高分辨率彩色图像数据,覆盖机器人操作和环境感知的关键视角。

📏

深度图像

精确的深度感知数据,用于三维环境重建和物体定位。

☁️

点云数据

三维点云表示,提供丰富的空间几何信息。

⚖️

惯性测量

IMU传感器数据,记录机器人运动状态和环境物理特性。

🔗

关节状态

机器人各关节位置、速度和力矩信息,反映精确的运动控制。

📝

文本指令

自然语言指令和描述,用于任务理解和人机交互。

👋

触觉数据

机器人末端执行器的触觉传感器数据,提供接触力和物体材质信息。

🔊

音频数据

环境和操作过程中的声音记录,用于多模态感知和交互。

支持的机器人形态

单臂机器人

单臂机器人

包括UR5、Franka等工业机器人手臂,专注于物体操作和精密装配任务。

双臂机器人

双臂机器人

具有两个协作手臂的机器人系统,支持复杂的双手协调操作任务。

仿人机器人

仿人机器人

类人形态的机器人,具有更接近人类的运动和交互能力。

四足机器人

四足机器人

四足移动机器人,擅长在复杂地形中的导航和操作任务。

移动机器人

移动机器人

轮式或履带式移动平台,具备大范围环境探索和操作能力。


数据用途

ARIO数据集包含来自310个系列、839620个任务的大约300万个实验记录,包括了真实场景和仿真场景的机器人操作数据,包含多视角RGB、多视角深度、关节角度、角速度、力矩以及末端夹爪的位姿信息等多模态数据。通过统一的数据格式和多模态信息,ARIO 为开发更强大、更通用的具身 AI 智能体奠定了基础,使智能体能够以更加复杂多样的方式与物理世界进行交互。

数据质量

所有轨迹均为实际场景采集,RGB视频统一使用MP4文件存储,深度信息统一使用npz文件存储,其余各关节以及夹爪的状态信息统一使用txt文件记录。数据集保留原始记录数据的时间戳和状态具体数值,可根据需要自由处理。