VLA 项目为何在训练开始前就已失败
Vision-Language-Action 模型 - 支撑 pi-zero、OpenVLA 和 Octo 等系统的底层架构 - 正在重新定义机器人能做什么。一个经过良好训练的 VLA 能够接收自然语言指令("拿起红色杯子放到托盘上"),并在从未见过的物理环境中完成任务。这种能力并非魔法,而是精心采集、精确标注、时序一致的训练数据的产物。
然而,大多数委托 VLA 训练数据服务的企业机器人团队到场时都存在同一个短板:他们理解模型架构和评估基准,但对于驱动模型的数据采集管道,没有清晰的规格要求。他们知道需要以第一视角视频、深度数据和动作标签,但不知道应当向供应商要求什么样的质量阈值、同步容差或标注协议。
这个短板代价高昂。一次产出 RGB-D 流对齐失效、动作分割不一致或拍摄高度错误的数据采集,可能让数月的模型训练付诸东流。本文明确说明 VLA 训练数据服务必须交付什么 - 让你在签约前就能评估供应商,而不是烧完试点预算才发现问题。
每条 VLA 训练管道所需的四种数据类型
专业级 VLA 训练数据服务需要同步采集四路独立数据流。每一路都必须同步到 100 毫秒以下的精度,否则模型会学到观测与动作之间的虚假相关性。
- 以第一视角 RGB 视频 - 最低 30fps 第一人称视角,快速操作任务建议 60fps。分辨率 1080p 或以上。摄像头必须安装在机器人末端执行器的操作高度,而非人眼高度。这是供应商采集数据集中最常见的规格错误。
- 深度数据(RGB-D)- 来自结构光或飞行时间传感器(Intel RealSense D435i、Azure Kinect 或 ZED 2)的配对深度帧。深度帧必须与 RGB 帧在一帧以内的时间范围内对齐。缺失或噪声严重的深度帧是 VLA 输出空间定位能力差的首要原因。
- 本体感知与动作标签 - 关节角度、末端执行器位姿(6-DOF)、夹爪状态以及 100Hz 以上的力矩读数。这些标签将视频观测转化为动作策略。交付视频但不含同步本体感知数据的服务商,提供的是素材,不是训练数据。
- 语言指令标注 - 与每段演示片段配对的自然语言任务描述。标注必须遵循采集开始前商定的受控词汇表。演示之间指令措辞不一致,会直接降低语言条件策略的性能。
VLA 训练中人类演示数据与合成数据的对比
企业团队在评估 VLA 训练数据服务时,最常问的问题是能否用合成数据替代真实人类演示数据。答案取决于你所处的开发阶段。
仿真生成的合成数据(Isaac Sim、MuJoCo、Genesis)适用于在物理真实性要求较低的大规模多样化场景下进行预训练。生产成本低、速度快,不需要实地采集团队。问题在于仿真到现实的迁移:仅在合成数据上训练的策略在部署到物理硬件时性能会大幅下降,尤其是接触丰富的操作任务,表面摩擦、物体形变和传感器噪声都至关重要。
在目标物理环境中 - 或与其高度相似的环境中 - 采集的人类演示数据,是实现最终微调阶段真正在生产环境中稳定运行的关键。最好的 VLA 训练管道将合成数据用于宽泛能力获取,将真实人类演示数据用于领域特定的定锚。只提供其中一种的服务商给你的是半条管道。
- 合成数据适用于:预训练、稀有事件覆盖、大规模课程多样性。
- 人类演示数据适用于:领域定锚、接触丰富任务、真实传感器标定、部署前最终微调。
- 生产 VLA 项目的典型预算分配:70% 合成预训练数据,30% 真实人类演示数据。真实数据每小时成本更高,但对部署可靠性的提升贡献不成比例。
数据量需求:究竟需要多少才够
VLA 训练数据量需求因模型架构、任务复杂度以及从零训练还是微调预训练主干而异。以下是 2026 年正在交付生产 VLA 系统的团队所使用的参考区间。
- 微调预训练 VLA(pi-zero、OpenVLA、Octo):每类任务 500-2,000 段演示。每段演示通常为 30-90 秒的活动。以 60fps 计算,每段演示对应 1,800-5,400 帧。
- 基于预训练主干训练任务特定策略:2,000-10,000 段演示,覆盖环境配置、物体位置、光照条件和失败恢复场景的完整分布。
- 从零训练通用策略:50,000-500,000 段演示。这是 Ego4D、EPIC-Kitchens 等学术数据集的规模范畴。商业层面,这一规模需要 6-18 个月的专项数据采集计划。
- 覆盖多样性比原始数量更重要。20 种物体类型、5 种环境配置下的 500 段演示,性能优于同一物体同一配置下的 5,000 段演示。请在合同中明确多样性要求。
同步与硬件:供应商必须达到的规格
时序同步是 VLA 训练数据采集中技术要求最高的环节。由独立硬件录制的 RGB、深度和本体感知数据流必须在后处理中对齐,或更理想地通过硬件触发在采集时同步。在签约前,请向你的 VLA 训练数据服务商询问以下问题:
- 硬件同步还是软件同步?通过 GPIO 触发的硬件触发同步(如 RealSense 上的 GPIO trigger)可达到亚毫秒级对齐。基于 NTP 或 ROS 时间戳的软件同步对慢速任务尚可接受,但对快速操作任务会引入 20-80ms 抖动 - 对于以 10-30Hz 运行的 VLA 策略而言不可接受。
- RGB-D 标定协议是什么?内参和外参相机标定必须在每次采集会话开始时执行,而非每次部署执行一次。相机外壳的热漂移会在数小时内改变标定参数。每周标定一次的供应商在生产未标定数据。
- ROS bag 如何组织?如果你的训练管道接收 ROS bag 格式,请确认供应商使用标准话题命名(/camera/color/image_raw、/camera/depth/image_rect_raw、/joint_states),且 bag 时间戳一致。非标准话题结构需要预处理工作,会延迟你的训练管道。
- 失效帧处理协议是什么?每次采集都会产生运动模糊、遮挡、传感器丢帧或标注错误的帧。专业数据服务商在采集时用质量标记标注这些帧,并在交付清单中提供有效帧计数。如果供应商不提供这项服务,你在替他们做质检。
真正服务于 VLA 训练的标注协议
原始视频和传感器流不是训练数据。用动作标签、任务边界和物体状态变化标注后,它们才成为训练数据。你的 VLA 训练数据服务商所采用的标注协议直接影响策略质量。
最常见的标注短板是时序动作分割 - 精确定义连续演示视频中每个动作的起止位置。不一致的分割边界会在训练数据中产生模糊的状态转换,模型将其学习为不确定性而非技能。在采集开始前,要求供应商以书面形式定义分割标准。
- 动作片段边界定义:向供应商提供书面协议,说明如何标记每个原子动作的起止位置(例如"抓取开始 = 夹爪接触物体的第一帧;抓取结束 = 物体离开表面的第一帧")。
- 时序分割的标注者间一致性(IAA)目标:要求在生产标注开始前,在金标准测试集上各标注者 Cohen's Kappa 最低达到 0.75。
- 物体状态标注:对于操作任务,场景中每个物体应在每个片段附带状态标签(例如"杯子:直立"、"杯子:倒置"、"杯子:被抓取")。这是使 VLA 模型能够推理任务进度的数据基础。
- 语言指令配对:每段演示片段需配对 3-5 个自然语言指令变体,以提升指令跟随的鲁棒性。每段演示只配单一指令会产生对措辞变化极度脆弱的模型。
- 包含失败演示:要求采集演示中 10-15% 为含恢复动作的故意失败案例。仅在成功演示上训练的 VLA 模型在部署时遇到第一个意外事件就会静默失败。
亚太地区数据采集:为何地理位置对机器人项目至关重要
需要大规模采集 VLA 训练数据的企业机器人项目面临一个地理决策:在目标部署市场(机器人将要运行的地方)采集,还是在物理环境特征相近的低成本市场采集。
对于面向亚太地区部署的项目 - 新加坡的仓储、泰国的制造业、日本的餐饮服务 - 越南已成为最具实操性的采集基地。经过培训的演示操作员劳动力成本比新加坡或日本低 60-75%。英语流利度足以支持多语言 VLA 训练项目。而且可用的物理环境类型(商业厨房、仓储配置、实验室设置)与目标部署场景的相似度足以支持领域迁移。
DataX Power 从河内运营数据采集项目,项目协调时区对齐新加坡、澳大利亚和美国时区。从合同签署起,500-1,000 段演示的试点项目可在 3-4 周内完成。
VLA 训练数据服务合同应包含的内容
在委托 VLA 训练数据服务商之前,请以书面形式明确以下要求。无法在合同中承诺这些规格的供应商,尚未准备好承接生产级数据采集工作。
- 数据格式规格:所有数据流的确切文件格式、目录结构、话题命名规范和时间戳格式。模糊的"标准格式"条款会在交付后产生谈判纠纷。
- 同步容差:RGB、深度和本体感知数据流之间允许的最大时间戳偏差。对于以 10Hz 运行的操作任务,50ms 是最大可接受容差;优选 20ms。
- 有效帧率保证:通过质量检查的最低交付帧比例(运动模糊阈值、深度有效性百分比、标注完整性)。92% 有效帧率是生产数据的合理下限。
- 演示多样性规格:覆盖的唯一物体实例数、环境配置数和光照条件数。将多样性矩阵附在合同中 - 而非段落描述。
- IAA 阈值:标注任务的最低标注者间一致性评分,在生产开始前在双方商定的金标准集上测量。
- 试点结构:在承诺完整生产量之前,交付并评估 200-500 段演示。拒绝结构化试点的供应商对自身质量缺乏信心。
- 交付清单:每批交付必须包含一份清单,列明每路数据流的帧数、有效帧率、标注完成率和每次会话的标定报告。


