LiDAR 3D 点云注释:2026 年从业者指南

基于激光雷达的感知是自动驾驶汽车安全、工业机器人、无人机测绘和基础设施检查人工智能的基石。注释 3D 点云数据是该领域技术要求最高的任务之一 - 本指南详细介绍了主要技术、特定于 3D 注释的故障模式、与现代 AV 堆栈相匹配的传感器融合模式,以及区分生产级 3D 数据集和研究玩具的操作质量规则。

14 min read由 DataX Power 团队提供
LiDAR 扫描可视化显示街道场景的密集 3D 点云 - 代表自动驾驶和感知 AI 的 3D 点云注释

为什么激光雷达对于生产人工智能很重要

LiDAR(光探测和测距)传感器发射激光脉冲,并在每个脉冲返回之前测量飞行时间,从而生成密集的环境 3D 地图,即每次扫描包含数百万个测量点的点云。与相机不同,激光雷达在很大程度上不受环境照明条件的影响,并在传感器级别提供直接的深度信息,而不是从立体或运动线索推断深度信息。

这些特性解释了为什么 LiDAR 成为大多数生产型自动驾驶车辆堆栈中的主要感知传感器(以及用于传感器融合的摄像头和雷达)、用于对象操纵和仓库导航的工业机器人中的主导传感器、道路和铁路网络高清测绘的主力,以及桥梁、公用事业基础设施、农业用地和林业资产的无人机检查中日益常见的模式。

支持基于激光雷达的人工智能的注释工作比同等的图像注释工作要困难得多。点云在远处很稀疏,被干扰物体遮挡,其覆盖模式特定于传感器,并且足够密集,以至于完全手动注释在操作上不可行。该防御模式将预先训练的模型辅助注释与高级审阅者校正相结合,通过专门为 3D 交互构建的工具进行应用。

从结构上讲什么是点云

点云是 3D 空间中数据点的集合,每个数据点由相对于传感器坐标系的 X、Y、Z 坐标定义。高密度汽车 LiDAR 传感器每次扫描通常会产生 100,000 到 2,000,000 个点,扫描速率为 10–25 Hz,持续每秒产生 1–5000 万个点。每个点还可以携带强度(反射率,用于区分油漆车道标记和沥青)、时间戳(对于处理扫描范围内的滚动快门效果至关重要),以及多回波激光雷达、多回波指示器(第一次命中、第二次命中和最终命中,对于植被穿透和检查工作有用)。

注释的结构含义是原始数据是非结构化的:没有固定的网格,没有相邻像素关系,也没有用于标记场景的规范“视图”。注释者通过 3D 查看器与云进行交互,3D 查看器允许旋转、切片、投影到相机坐标,并覆盖相应的 RGB 帧(当相机-LiDAR 融合是参与的一部分时)。注释工具的渲染性能直接影响注释者的工作效率——一个难以顺利渲染 200 万个点的工具会将注释者的时间消耗在工具摩擦上,而不是注释工作上。

3D 边界框注释

最常见的 3D 注释任务是在场景中的每个对象周围安装 3D 边界框。该框由其中心位置(世界坐标中的 X、Y、Z)、尺寸(长度、宽度、高度)、方向角度(偏航,可选的俯仰和滚动以进行细粒度工作)和类标签定义。该框必须与对象的前进方向对齐,而不是与传感器坐标系对齐 - 汽车的边界框必须指向汽车面向的方向,即使汽车相对于传感器呈 30 度角。

这种方向要求使得 3D 标注比 2D 标注更加困难。注释者必须同时从多个视角操纵盒子,通常使用自上而下(鸟瞰)视图、侧面投影和正面投影的组合,并在相机与激光雷达融合可用的情况下叠加相机图像。 Defensible 3D 注释工具同时支持所有四个视图,并允许注释者调整其中任何一个的框参数,并实时更新其他视图。

对于自动驾驶和机器人项目,标准类别集是车辆(进一步细分为汽车、卡车、公共汽车、摩托车、自行车)、行人、骑自行车的人、动物和动态障碍物。类分类法根据下游感知模型需要区分的内容进行校准 - 组合模型相同处理的类会浪费注释工作;模型无法可靠地分离的类别会产生噪声训练数据。

点云的语义分割

语义分割为云中的每个点分配一个类标签——路面、人行道、建筑物、植被、车辆、行人、骑自行车的人、交通标志、交通灯、道路设施(标志、杆、障碍物)等。输出是每点类地图,支持高清地图生成、地形分析、路面状况评估以及需要像素级(或更确切地说是点级)场景合成而不仅仅是离散对象检测的更广泛的场景理解模型。

由于数据密集,点级语义分割在计算和人体工程学方面要求很高。单次 LiDAR 扫描包含 200,000 个点,无法以任何可承受的成本进行逐点手动分类。标准模式是模型辅助预标记:预先训练的语义分割模型为每个点生成初始类分配,人工注释者进行审查和纠正,重点关注模型不确定或类边界不明确的情况。

主要的质量问题是类别边界精度(道路和人行道之间、植被和建筑物之间、车辆和地面之间的边界)和稀有类别覆盖范围。可防御的程序在点级分割上报告每个类别的 IoU,并明确关注对生产中的模型性能影响不成比例的罕见类别(人行道上的行人、交通中的骑自行车者、道路设施、动物)。

实例分割和多帧跟踪

实例分割通过每个对象的身份扩展了点级语义分割:分配给车辆的每个点也分配给特定的车辆ID,因此场景中的两个相邻车辆具有可区分的点集,即使它们共享相同的语义类。人群分析、多对象跟踪、交通流建模以及需要推理单个对象而不是聚合场景组成的更广泛的感知模型都需要实例分割。

多帧跟踪是实例注释的时间扩展:随着传感器移动和场景演变,在连续 LiDAR 扫描中保持一致的对象 ID。注释器必须推理 3D 空间中的对象轨迹,处理遮挡(隐藏在建筑物后面数帧的对象必须以相同的 ID 重新出现),并检测跟踪器重新分配错误 ID 的身份交换。捕获跟踪失败的 QA 工件是跨多帧序列的每轨审核,而不是随机帧审核——这反映了 2D 视频注释中的相同模式。

汽车以外的应用

LiDAR 注释远远超出了自动驾驶堆栈,扩展到一系列工业和基础设施领域,这些领域应用相同的技术,但类别分类和操作模式不同。

  • 施工和测量:通过无人机或三脚架安装的激光雷达注释建筑结构、地形特征、现场设备和进度里程碑。类分类包括墙壁、屋顶、开口、结构钢、土壤、设备以及挖掘机和起重机操作员需要建模的特定于建筑的障碍物。
  • 林业和农业:通过航空激光雷达对树种、树冠密度、作物健康和土地利用进行分类。类分类取决于区域植物区系和具体应用;具体而言,在亚太地区项目中,稻田、棕榈园和橡胶园是常规类别标签。
  • 工业机器人:为机器人操作、拾放和仓库导航标记零件、箱子、工作区边界和障碍物。该注释支持实时感知模型和数字孪生仿真管道。
  • 基础设施检查:识别桥梁、管道、输电塔和公用设施网络中的裂缝、腐蚀、偏转、变形和结构异常。通常与高分辨率 RGB 摄影配合使用,以实现精细的检查工作流程。
  • 室内移动机器人:为仓库自动化和送货机器人项目绘制平面图、静态障碍物和动态物体(人、叉车、AGV)。
  • 文化遗产和博物馆数字化:3D 扫描文物、考古遗址和历史建筑以进行保护和研究。注释分类是根据程序定制的。

传感器融合:将激光雷达与摄像头和雷达相结合

生产自动驾驶和机器人堆栈很少仅依靠激光雷达运行。标准模式是传感器融合:用于精确深度和 3D 几何的激光雷达、用于细粒度类别识别以及文本和交通标志读取的摄像头、用于远距离和恶劣天气鲁棒性的雷达。注释工作必须跨越所有三种模式,并在它们之间进行一致的身份分配。

传感器融合程序的防御注释模式使用统一的标记工具,可同时显示 LiDAR、摄像机和雷达数据,其中 3D 框、每帧 2D 摄像机框和雷达回波均链接到同一对象 ID。注释器通过在模态之间切换来处理不明确的情况 - LiDAR 扫描中稀疏的远处物体可能在相机中清晰可见,并且相机端注释可以告知 3D 框几何形状。

融合注释中的主要质量问题是跨模式一致性。在时间戳 T 的相机帧中被识别为行人的对象必须是同一时间戳、具有相同 ID 的 LiDAR 扫描中的同一行人。捕获跨模式故障的审计工件是跨模式一致性报告:每帧审核有多少对象出现在一种模式中但没有出现在另一种模式中,以及每个对象的 ID 跨模式匹配的验证。

点云标注的技术挑战

即使使用成熟的工具和模型辅助管道,3D 注释也会带来 2D 图像注释永远不会出现的问题:

  • 距离稀疏。 LiDAR 点密度随着距传感器的距离而下降。 10 米外的行人可能会显示为 200 分;同一行人在 50 米处可能会显示为 8 个点。远处的小物体实际上更难准确注释,并且在边界几何形状上产生更多注释者分歧。
  • 闭塞和缺失点。被中间对象部分阻挡的对象缺少注释者必须从上下文中插入的点。合理的决定是在指南中指定被遮挡的部分是否包含在边界框中(典型)或排除(较少见)。
  • 传感器特定的覆盖模式。不同的激光雷达型号具有不同的垂直角分辨率、不同的范围特性和不同的扫描模式。在一个传感器数据上训练的注释器生成的注释在没有明确重新校准的情况下无法干净地转移到另一个传感器。
  • 传感器安装校准。注释必须考虑车辆或平台上传感器的具体位置和方向。错误校准的安装偏移会产生审计需要捕获的系统性 3D 盒位置误差。
  • 工具性能限制。点云查看器必须实时渲染数百万个点,同时支持复杂的交互(旋转、切片、投影、多视图链接)。注释器的生产力在很大程度上取决于工具的性能;在盒子操作过程中滞后的工具会因为工具摩擦而不是注释工作而消耗注释者的时间。
  • 多返回歧义。在植被、玻璃和反射表面上,LiDAR 脉冲每个脉冲会产生多次返回。模式必须指定是否使用首次返回、最后返回或全部返回进行注释,并且注释工具必须支持所选约定。

3D 注释的质量标准

生产自动驾驶和机器人程序通常将其 LiDAR 数据集保存为以下质量标准:

  • 3D IoU 阈值:车辆类别(汽车、卡车、公共汽车)的目标 3D IoU > 0.7,行人和骑自行车的人 > 0.5(较小的物体具有较高的比例方差)。安全关键的自动驾驶程序通常会针对更严格的阈值。
  • 定向精度:车辆航向角误差<10度。对于运动预测模型至关重要,30 度的航向误差会产生严重错误的预测轨迹。
  • 完整性:每个超过最小尺寸阈值(通常最大尺寸为 30 厘米)的对象都必须进行注释。丢失物体会导致训练信号出现误报,这在安全关键型应用中尤其危险。
  • 多帧一致性:对于静止或缓慢移动的对象,对象尺寸(长度、宽度、高度)在帧与帧之间的变化不应超过几厘米。尺寸漂移是一个校准信号,而不仅仅是注释器质量的信号。
  • 每轨审核通过率:随机采样完整的对象轨迹而不是随机帧,通过每次遮挡和重新进入事件验证 ID 一致性。最重要的视频特定质量制品。
  • 跨模式管道上的传感器融合一致性:每帧验证 3D LiDAR 对象、2D 摄像头盒和雷达返回的同一物理对象都共享一致的 ID。
  • 按条件报告:按照明(白天/黄昏/夜晚)、天气(晴朗/雨/雾/雪)和场景类型(城市/高速公路/住宅)划分的质量。单个全局 IoU 数隐藏了每个条件的现实情况。

常见问题

自动驾驶、机器人和基础设施人工智能团队在确定 3D 点云注释计划范围时提出的常见问题:

  • 模型辅助 3D 注释比完全手动快多少?在基线 3D 检测器能够胜任的易于理解的领域(高速公路驾驶、室内仓库、结构化城市场景)上,速度通常提高 3-5 倍。在更困难的情况下(密集的非结构化城市场景、越野、频繁出现跨模式分歧的传感器融合程序),加速压缩至 1.5-2 倍。
  • 如何评估 3D 注释供应商?进行 100-500 次 LiDAR 扫描的付费试点,涵盖生产模型将遇到的条件。每个类别的 3D IoU、每个轨道的审核通过率、航向角误差分布以及(对于融合程序)跨模式一致性报告都是可比较的人工制品。只引用标题 IoU 数字而没有按类别和按条件报告的供应商并不是在运行可靠的程序。
  • 合成激光雷达可以替代现实世界的注释吗?部分 – 来自基于物理的模拟器的合成点云对于罕见条件(特定的安全场景、现实世界中难以捕捉的天气条件)和预训练很有用。结构限制是合成数据继承了模拟器关于传感器噪声、反射物理和场景组成的假设。在真实子集上具有记录质量的混合真实和合成管道是在监管机构和审计审查下保持不变的模式。
  • 我应该期望一级供应商使用什么注释工具?生产级 3D 注释工具支持多视图链接、模型辅助预标记、多帧时间线导航、可进行相机融合的 RGB 图像叠加、每类颜色编码和可配置的 QA 仪表板。大多数一级供应商在企业平台上运营(专有或许可);有些在适合特定参与的开源堆栈上运行。
  • 3D LiDAR 注释程序的典型斜坡时间是多少?新的参与需要 6-10 周的端到端时间:2-3 周用于指南制定和传感器校准,2-3 周用于注释者入职和针对黄金面板的校准,2-3 周半速生产,同时质量稳定,然后全速生产。由于额外的跨模式校准成本,传感器融合程序通常运行 8-12 周。
Data Annotation Service

Looking to operationalise the dataset thinking in this post? Our data annotation services Vietnam pod handles collection, cleaning, processing, and pixel-precise annotation across image, video, text, audio, document, and 3D point-cloud data.

携手打造 下一个里程碑

告诉我们您的挑战 – AI、数据或基础设施。我们将为项目梳理范围,并为您配置合适的团队。