本文来自赛迪智库。
具身智能包括本体、数据集、模型、场景四大组成要素,其中,数据集关系到具身智能的智能涌现和能力泛化。当前,在数据集领域,国家级数据训练场、行业级开源社区与企业级数据开发平台协同发力,形成了“真机遥操+灵巧手采集+仿真数据”三层数据供给体系,支撑视觉-语言-动作(VLA)模型与世界模型并进式发展。但具身智能数据集供给仍呈现点状分散格局,受限于标注工具不足、采集成本高昂、多模态技术滞后与标准体系缺失等瓶颈,掣肘了具身智能从技术验证向规模化商业应用的进程。亟需培育高质量具身智能数据训练场,打造数据集标注平台,建设数据集开源社区,研制数据集标准规范,开展规模化场景应用示范,探索具身智能数据集产业高质量发展的“中国路径”。
一、我国具身智能数据集的建设现状
从建设主体看,国家级数据训练场、行业级开源社区与企业级数据开发平台协同发力,具身智能数据集开发生态纵深性发展。一是国家级训练场构建“2+N”数据生产体系。国家层面,已在北京和上海建成2个国家级具身智能训练场。其中,北京国家地方共建具身智能机器人创新中心已建成近万平米的中试验证工厂,年产能达数千台套,配备近百套关键测试仪器,支持整机、一体化关节、机械臂等全链条测试验证。上海国家地方共建人形机器人创新中心训练场已部署102台异构人形机器人,具备每日生成5万条数据的能力。地方层面,河南、江苏、北京、深圳等省市正积极推进人形机器人创新中心分训练场建设。其中河南分训练场聚焦12大传统产业,部署近百台机器人,覆盖20多个真实场景。二是行业级开源社区推动关键资源共建共享。地方、企业及科研机构主动开放资源,以共建方式降低行业创新门槛。如傅利叶智能开源了包含3万条真机数据的ActionNet数据集及配套工具链,地瓜机器人等也积极打造开发者社区。北京国家地方共建具身智能机器人创新中心上线了开源社区,提供具身天工机器人本体、慧思开物SDK、RoboMIND数据集及训练工具链等资源。三是机器人本体企业和技术服务平台企业推动企业级数据研发和服务。机器人本体企业基于自有硬件进行真机数据的采集积累,如智元机器人AgiBotWorld真机数据集、宇树科技G1机器人操作数据集、帕西尼OmniSharingDB全模态具身智能数据集。技术服务平台企业则提供数据采集平台、仿真工具、数据标注服务等数据服务,助力企业数据集开发。如群核科技提供虚拟数字道场平台SpatialVerse,通过生成可交互的三维合成数据,支持机器人进行避障、抓取及紧急制动等任务的仿真训练;智源研究院则打造高保真仿真框架AgiBotDigitalWorld,为机器人设计提供仿真数据生成解决方案。
从技术路径看,形成了数据供给“真机遥操+灵巧手采集+仿真数据”三层体系,规模化采集能力初步建成。一是真机遥操。智元机器人、傅利叶智能等企业,通过覆盖单臂、多臂、人形、四足等多形态机器人,可在家居、餐饮、工业、办公等200多个真实场景中执行复杂操作,积累大量真实交互数据。二是灵巧手采集,通过触觉传感器精准记录人手精细动作,为精密装配、柔性物体操控等任务提供关键数据。灵巧智能DexCanvas数据集,汇聚了22类人手操作模式、超1000小时真人多模态演示数据,驱动五指灵巧操作模型。三是仿真数据。银河通用、光轮智能、深信科创、云道智造等企业,借助物理引擎和图形学构建虚拟环境,可低成本生成大规模数据。
从建设成效看,具身智能数据集支撑VLA与世界模型发展,涌现一批典型模型。一是在VLA模型方向,大规模、多模态数据集为其提供了训练基础,使机器人能够融合视觉感知、语言理解与动作控制,高效执行复杂任务。比如银河通用机器人依托具身大模型GraspVLA,通过十亿帧数据训练,掌握机器人泛化闭环抓取能力。星动纪元发布VLA模型ERA-42驱动的双足机器人,学习人类操作视频和真机数据,可实现4m/s疾速奔跑、360°旋转跳及工业级精细作业。二是在世界模型方向,机器人通过海量视频数据,学习环境中物体与事件的演变规律,提升其对未来状态的预测与因果推理能力。如智元机器人的GenieEnvisioner世界模型平台,基于3000小时的真机操控视频数据,赋能机器人实现“制作三明治”“倒茶”“擦拭桌面”等任务。宇树科技基于5个涵盖机械臂和人形机器人的任务数据集,搭建UnifoLM-WMA-0世界模型架构。三是技术架构正从分层架构向端到端演进,VLA与世界模型或将融合。当前具身智能仍以分层架构为主,随着仿真与真实数据的进一步融合,“世界模型为大脑、VLA为手眼”的融合架构将成为新趋势。
二、具身智能数据集工程化落地存在四大瓶颈
当前,我国具身智能数据集建设已形成多主体协同、多层次供给的格局,但仍呈点状分散状态。要实现具身智能领域的技术迭代与规模化商业落地,必须加快推进数据集工程化落地——即构建覆盖数据采集、标注、应用、评估全流程的标准化和产品化,实现数据集的高效生产与可靠复用,为具身智能模型训练与场景适配提供系统化支撑。目前,该进程仍面临四大瓶颈制约。
(一)数据标注工具制约高质量数据集构建
一是具身智能标注工具仍显匮乏。VLA模型要求对视觉场景、语言指令及动作轨迹进行时空关联标注,世界模型更需要标注视频序列中的物理属性、物体状态变化及潜在的因果联系。然而,现有工具多侧重于静态图像或简单视频标注,难以高效支持VLA模型和世界模型对长序列、3D空间和物理动态标注的需求,数据标注精度不足。二是缺乏数据标注全生命周期平台。标注规范、工具接口和数据格式各异,使得不同企业的标注数据复用性与集成性较差,制约了数据生态的协同效率。
(二)数据采集成本限制数据集规模化扩张
一是软硬件投入高。与传统AI数据集采集相比,构建覆盖多任务、多环境的具身智能真实数据集需投入大量机器人、传感器及专业标注工具,成本高昂,单台设备产生一万小时训练数据需要消耗上百万元。二是人员成本高。一个数采员一天只能采集300-500条数据,如果是复杂任务,数据采集产出会更低。
(三)多模态融合技术影响数据集有效性
一是仿真数据的迁移可靠性不足。由于物理引擎难以完全模拟复杂的真实力学特性,如接触、摩擦、材料变形,导致依托仿真数据训练的策略模型迁移到真实环境时出现显著性能衰减。例如依托仿真数据LIBERO-LONG训练的世界模型在办公桌面的现实环境中失效。二是多模态数据精准融合困难。视觉和触觉数据的精度需求存在跨量级鸿沟,精准对齐和标注仍是行业难题,制约人形机器人作业的精确性和适应性。尽管戴盟、帕西尼、叠动等企业在传感器与算法层面已取得突破,但高精度的视触觉融合技术仍有待攻克。
(四)数据标准缺失阻碍数据集共享与复用
一是开源数据标准化程度不高。不同机构的开源数据集在数据格式、标注体系、传感器参数与任务定义等方面存在显著差异,缺乏统一的本体描述与接口规范,导致数据难以跨项目集成与复用。此外,数据采集设备、环境配置与操作协议不统一,也使得多源数据难以有效对齐与合并。二是具身智能数据标准体系有待完善。目前国家和地方层面发布或正在起草的标准多集中于数据生产环节,对数据质量评估、数据集泛化性能评测等,仍需更完善的标准制定和平台支持。
三、对策建议
(一)加强载体建设,培育高质量数据训练场
一是支持国家级具身智能数据训练场聚焦行业发展的前瞻性、基础性问题,攻克共性技术难题、制定数据标准、建设普惠性基础设施。二是鼓励有条件的地方立足自身产业优势,通过设立专项、配套政策与资金,建设一批聚焦工业装配、家庭服务等细分领域的具身智能数据训练场,构建特色化、差异化的具身智能数据体系。
(二)突破关键技术,打造数据集标注平台
一是强化软硬件协同,系统发展具身智能多模态传感器、仿真建模、数字孪生等关键技术,深度适配VLA模型和世界模型发展。二是突破数据处理的核心算法,加强多模态数据融合、仿真-真实数据迁移、数据合成与增强等核心技术攻关,为高效、高精度数据标注提供核心驱动力。三是鼓励标注企业与机器人企业共建具身智能多模态数据集标注平台,加强核心算法研发,推动标注工具智能化,形成可复用、可推广的行业级解决方案。
(三)注重开源开放,建设数据集开源社区
一是建设具身智能开源社区,推动基础模型、训练数据、工具链、操作系统、仿真环境等技术开源,推动构建万亿级多模态开源数据库。二是支持高校、龙头企业与开源社区共建课程与实践平台,通过举办具身智能算法竞赛、设立开源贡献奖励等方式,培育一批既懂技术又具开源精神的复合型人才,激发产业创新活力。
(四)加快标准制定,研制数据集标准规范
一是加强标准统筹。坚持“统筹部署、软硬协同、急用先上、开源先行”的原则,加快推进具身智能分行业、分场景数据集标准体系制定,积极推动开源数据集标准化。二是突出核心任务。面向物体抓取、自主导航、复杂指令遵循等核心任务,支持行业建设具身智能数据集测试标准体系。三是开展评测认证。鼓励第三方机构建立数据集质量评测与认证体系,推动标准在典型场景中先行试用与迭代优化,为数据流通与应用建立基础信任。
(五)深化行业应用,开展规模化场景应用示范
一是聚焦工业制造、商业零售、医疗康养、家政服务等重点领域,开展场景征集与任务揭榜,探索具身智能应用新业态。二是组织开展具身智能数据集典型案例遴选,支持行业企业打造可推广可复制的示范应用标杆,推动具身智能规模化商用落地。
