Data Annotation Service

计算机视觉图像注释：2026 年从业者指南

从边界框到像素完美的分割掩模，图像注释是每个计算机视觉模型背后的引擎。本指南详细介绍了每种主要技术——边界框、多边形、语义和实例分割、关键点、分类、OCR——何时使用每种技术、如何将它们组合到生产管道中，以及在扩展图像注释程序时值得跟踪的操作指标。

2025年9月15日14 min read

作者：Chris Pham

为什么技术选择会限制模型性能

图像注释是每个监督计算机视觉系统的基础。架构和计算决定了模型拟合标签的效率；注释技术决定了标签实际捕获的内容。在边界框上训练的模型可以检测 CT 扫描中是否存在肿瘤，但它无法告诉放射科医生肿瘤在哪里结束，健康组织在哪里开始。经过多边形分割训练的模型可以。造成差异的是注释选择，而不是模型。

对图像注释程序进行预算的含义是，技术决策属于项目开始时，而不是结束时。从边界框到语义分割重新注释图像数据集通常需要花费原始注释预算的 50-100 倍，并且对于大量数据集可能需要 3-6 个月的时间。预先正确选择比模型在生产分布上失败后发现错误选择要便宜得多。

下面的框架描述了 2026 年企业计算机视觉工作中使用的七种主要图像注释技术（每种技术何时适用），以及如何将它们组合到一次注释传递很少足够的管道中。

边界框注释

最常见且最具成本效益的技术。注释器在每个感兴趣的对象周围绘制轴对齐的矩形，可以选择使用类标签和每框属性（遮挡级别、截断、视点）。边界框的生成速度很快，通常每个对象在生产速度下需要 5-15 秒，并且涵盖了对象检测的广泛情况，其中模型需要知道对象在哪里以及它属于什么类别，而不需要精确的形状信息。

生产应用包括用于高级驾驶辅助的行人和车辆检测、零售货架图像中的产品识别、安全摄像头分析、来自相机陷阱的野生动物监测、生产线上的缺陷检测以及广泛的对象检测基准系列（COCO、Open Images、ImageNet 检测）。

主要的质量问题是一致性和密封性。太松的盒子包含大量背景像素，并教会模型将背景与对象类关联起来——这是生产中误报的常见原因。太紧的盒子会夹住物体的一部分，并告诉模型该物体比现实小。防御性指南指定了紧密性约定（通常是“包围对象的所有可见像素的最小轴对齐矩形”），并通过每个类的工作示例来强化它。

对于旋转或定向的物体（卫星图像中的船舶、空中视角的车辆、路面上的车道标记），正确的变体是旋转边界框 - 轴对齐的框在主轴不是水平或垂直的物体上会失去准确性。大多数现代注释工具本身都支持旋转框。

多边形标注

对于矩形过于不精确的不规则形状对象，注释器通过沿对象边界放置顶点来绘制多边形。该技术每个物体所需的时间比边界框长 2-5 倍，但对于细长物体、弯曲表面、医学成像中的软组织、卫星图像中的植被以及不规则形状的制造缺陷来说，精度显着提高。

主要的权衡是顶点计数决定。顶点太少会产生过于松散地近似形状的多边形；太多的顶点会增加注释成本并导致模型性能的回报递减。生产指南通常为一般工作指定每个对象 8-20 个顶点，对于复杂曲线则指定更多，并且根据模型的下游对边界精度的敏感性来校准权衡。

对于还需要比例或面积测量的不规则形状物体（组织学中的细胞计数、皮肤病学中的病变区域、制造检查中的缺陷尺寸），多边形注释通常是最低可接受的技术。边界框系统地夸大了对象区域；语义分割更准确，但每张图像的成本更高。

语义分割

图像中的每个像素都会收到一个类别标签。输出是一个颜色编码的蒙版，其中所有道路像素都是一类，所有天空像素是另一类，所有行人是另一类，依此类推。语义分割的注释计算成本很高，通常比每个图像的边界框慢 50-100 倍，但可以实现需要在像素级别理解场景几何形状的模型。

主要应用是自动驾驶感知（模型需要区分可行驶道路与人行道、车辆与行人、交通标志与背景）、医学成像分割（肿瘤边界、器官结构、解剖地标）、卫星和航空图像分析（土地利用、植被覆盖、建筑物足迹提取），以及模型需要推理像素级场景组成而不是离散对象的任何任务。

主要的质量问题是边界精度和类边界一致性。即使漂移 1-2 个像素的边界也会在数千张带注释的图像中累积，并生成一个模型，该模型可以学习预测各处稍微偏离的边界。类边界一致性——在两个类之间的边界处标记什么的规则——必须在指南中通过工作示例来指定；如果没有它，注释者会默默地对边界产生分歧，并且模型会学习噪音。

实例分割

实例分割将语义分割的像素级精度与边界框的对象实例区分相结合。每个对象实例都会收到自己独特的掩码，因此两个重叠的汽车被标记为单独的实例，而不是合并到单个“汽车”区域中，并且每个实例都可以携带自己的每个对象属性。

在区分单个对象时需要使用该技术：人群计数、跨视频帧的手术器械跟踪、需要分离单个产品单元的零售货架库存、需要跨帧跟踪单个车辆的流量分析以及大多数现代的带掩模的对象检测基准（COCO panoptic、LVIS、Open Images 实例分割）。

注释成本大致与每个对象的语义分割相当，但与对象数量而不是图像面积线性缩放。具有数百个重叠对象的密集场景在实例分割中比在语义分割中更昂贵，在语义分割中，重叠的同类对象折叠成单个区域。

关键点标注

注释器标记对象上的特定点：人体骨骼上的关节（运动和健身应用中的肩、肘、腕、髋、膝、踝，在 COCO 关键点方案中具有 17 个标准关键点）、面部标记（眼角、鼻尖、唇缘 - 标准面部标记方案中通常有 68 个关键点）、用于手势识别的手部关键点或用于工业检查工作流程的机械零件上的参考点。

关键点数据训练姿势估计模型，用于健身应用程序、运动分析、舞蹈和动作捕捉、手势控制界面、生物识别、AR 过滤器以及模型需要推理对象关节而不仅仅是检测的更广泛的应用程序。

主要的质量问题是可见性处理。被另一个物体、主体自己的身体或衣服遮挡的关键点必须被标记为遮挡而不是近似——近似关键点教会模型在遮挡下产生幻觉位置，这正是姿势模型敏感的故障模式。该指南必须指定如何记录可见性以及被遮挡的关键点如何影响训练损失。

图像分类和多标签标记

最简单、最快的注释技术：将一个或多个类标签分配给整个图像，而不需要本地化对象。单类标记的注释速度为每张图像 1-3 秒，多标签的注释速度为 5-10 秒。

用于训练图像分类模型，以进行内容审核（用户生成内容平台上的安全分类器）、零售中的产品分类、图像搜索索引、场景分类（室内/室外、城市/农村、白天/夜间）以及将图像路由到更昂贵的下游模型的高级预过滤管道。

主要的质量问题是分类设计和类间边界清晰度。具有 200 个类的分类法，其中某些类重叠，将产生差异很大的每个类 IAA，其中重叠类产生的分歧最大。解决办法是在指南阶段进行分类法管理——更少、更清晰的类定义始终优于更大、更嘈杂的分类法。

OCR、文档布局和结构化提取

2026 年图像注释工作的一个不断增长的类别：扫描文档的光学字符识别 (OCR)、文档布局分析（标题、段落、表格、图形区域）以及从表单、发票、收据、ID 和报表中结构化提取键值对。注释工作将布局区域的边界框检测与每个区域内的文本转录注释相结合，以及将文档中的标签与值配对的键值链接。

生产应用程序包括亚太地区的财务文档处理（发票提取、报表解析、KYC 文档审查）、医疗保健索赔表处理、法律文件审查和合同数据提取以及政府文档数字化计划。

主要的质量问题是语言处理和结构化输出的一致性。处理越南语、泰语或印度尼西亚语文档的文档提取程序需要母语注释器 - 拉丁字符转录工具会在重音字符、声调标记和特定于语言的标点符号上产生无声错误，而单语审阅者无法发现这些错误。结构化输出模式也必须被锁定在指南中；如果没有它，两个注释器将为同一文档生成结构不同的提取，并且模型无法学习一致的格式。

选择正确的技术

从生产任务到注释技术的快速映射：

对象检测（在哪里？）：边界框——快速、可扩展、在工具和框架中得到广泛支持。
形状敏感检测（医疗、卫星、制造缺陷）：多边形——当边界精度比注释速度更重要时。
场景理解（自动驾驶、机器人）：语义分割——当模型需要像素级场景合成时的正确工具。
单个实例计数和跟踪：实例分割——当对象重叠或聚集时，模型必须保持它们可分离。
姿势、手势和关节：关键点——人体、手、面部、机械部件标志性任务。
内容标记和预过滤：分类——用于审核、搜索或路由的图像级标签。
文档和表单处理：OCR + 布局检测 + 键值链接 – 金融、医疗保健、法律和政府工作的主导模式。

混合管道：当一种技术不够时

到 2026 年，大多数计算机视觉工作都不是单一技术。标准模式是同一图像上的两种或三种注释技术的管道，每种技术在生产堆栈中提供不同的模型。

自动驾驶：可行驶区域的语义分割+车辆和行人的边界框+交通标志地标的关键点注释+用于深度感知的3D点云注释。同一数据集上的四个注释流。
医学成像：肿瘤边界的多边形或语义分割+解剖标志的关键点注释+研究级发现的分类标记（阳性/阴性/不确定）。
零售库存：用于单个产品单元识别的实例分割+用于类别路由的分类标记+用于价格标签和条形码提取的OCR。
文档处理：区域的布局检测边界框+每个区域内文本的OCR转录+跨文档的键值链接。

工具和格式兼容性

到 2026 年，图像注释输出格式将得到很好的标准化，但格式选择具有操作意义。这五种格式几乎涵盖了所有企业图像注释管道：

COCO JSON：对象检测、分割和关键点注释的主要格式。受到每个主要模型框架的支持。除非有特定的下游限制，否则新程序的正确默认值。
Pascal VOC XML：较旧的格式，仍在旧检测管道中使用。表现力不如COCO；转换器是可靠的。
YOLO TXT：仅用于边界框检测的轻量级格式。优化快速加载；不太适合分割或关键点工作。
掩模图像（PNG，索引颜色）：语义分割的标准。每个像素值对应一个类别。
自定义 JSON 模式：特定领域工作的正确模式（使用 DICOM 元数据的医学成像、使用结构化 KV 对的文档提取）。在指南中预先定义模式可以防止跨批次的模式漂移。

特定领域的注释挑战

医学影像注释（X 射线、MRI、CT 扫描、组织学幻灯片、皮肤病学图像、视网膜扫描）需要经过临床培训的注释器，而不是通用标记器。错误识别的肿瘤边缘或病变边界与错误识别的汽车有本质上的不同。可辩护的参与模型包括裁决链上指定的放射科医生或临床医生审查员，并具有记录的临床级 IAA 目标（通常相对于汇总参考 Dice ≥ 0.85）。

卫星和航空图像注释需要注释者了解自上而下的视角，并能够识别与地面照片非常不同的结构——建筑物占地面积、车辆类型、植被类别、农业用地用途。地理空间精度通常是与标签精度分开的质量维度：注释相对于图像坐标系的错误配准会默默地降低下游模型的性能。

制造检验注释通常包含细微的缺陷——微裂纹、表面变色、尺寸偏差、焊接缺陷——只有经验丰富的检验员才能可靠地识别这些缺陷。在这些领域，领域专业知识是先决条件，而不仅仅是有益的。注释者池通常包括来自相关行业的前 QA 技术人员，而不是通才注释者。

图像注释的质量指标

每个图像注释参与都值得跟踪的指标，因此质量是可观察的而不是轶事：

Intersection over Union (IoU)：用于边界框和分割掩模。大多数生产应用的目标 IoU > 0.85；对于安全关键型工作，更高 (0.90+)。
Dice 系数：医学影像分割中的标准度量。与生产级临床工作的汇总临床参考相比，目标骰子 > 0.85。
语义分割的像素精度和每类精度/召回率。阶级不平衡是标准陷阱；每类报告可防止高标题指标隐藏失败的稀有类。
关键点定位误差：注释关键点和地面实况关键点之间的平均像素距离。定义的像素阈值的 PCK（正确关键点百分比）是标准。
对于分类任务，每个类别的 Cohen 或 Fleiss kappa：机会校正一致性是正确的指标，而不是原始一致性。
分层黄金样本中的注释与黄金面板的准确性：持久的跨批次指标，用于将当前批次与项目定义参考集进行比较。

常见问题

企业计算机视觉团队在确定图像注释程序范围时提出的常见问题：

如何在边界框和多边形之间做出选择？当模型需要知道“它在哪里”时使用边界框；当模型需要知道“它是什么形状”或边界精度影响下游测量（面积、尺寸、病变大小）时，请使用多边形。
边界框注释比分割快多少？每张图像的边界框运行速度通常比语义分割快 50-100 倍。成本差异是技术决策背后的主要运营驱动因素。
预训练模型能否预标注并降低标注成本？是的 - 标准模式是模型辅助预标记，其中预先训练的基线模型生成初始标签，并由人工注释者审查/纠正。如果做得好，它可以将基线模型胜任的任务的注释成本降低 30-60%。如果做得不好（跳过对模型错误的人工审查），它会将模型的偏差烘焙到数据集中。
在签署之前如何评估图像注释供应商？使用相同的黄金面板和跨供应商相同的验收标准运行 500-2,000 张图像的付费试点。试点的 kappa、IoU 和审核通过率是可比较的人工制品。
企业图像注释程序通常需要多长时间才能启动？从合同到稳态生产需要 4-8 周：1-2 周用于指南制定和黄金面板构建，1-2 周用于注释器上岗和校准，1-2 周半速生产，同时质量稳定，然后全速生产。

返回所有帖子

Data Annotation Service

Looking to operationalise the dataset thinking in this post? Our data annotation services Vietnam pod handles collection, cleaning, processing, and pixel-precise annotation across image, video, text, audio, document, and 3D point-cloud data.

Data annotation services Vietnam – collection, cleaning, and labelling More Data Annotation Service insights Browse Data Annotation Service case studies

继续阅读

Data Annotation Service

向 AI 标注供应商必问的 SLA 与安全要求清单

在签订标注合同之前，你必须先面试供应商。这些 SLA 与安全问题能区分出真正兑现承诺的供应商，以及那些做不到的 - 也告诉你哪些答案应该让你立刻掉头离开。

Multiple technology sensor displays with data streams - representing multimodal sensor data collection for robotics AI training programs

Data Collection Service

Multimodal Sensor Data Collection for Robotics: Integrating RGB, Depth, Force, and Audio (2026)

Multimodal robot training data - synchronized RGB, depth, force-torque, and audio - consistently outperforms single-modality datasets for contact-rich and dexterous manipulation tasks. This guide covers sensor selection, synchronization architecture, storage at scale, and QA for production multimodal collection programs.

准备好了吗?

携手打造下一个里程碑

告诉我们您的挑战 – AI、数据或基础设施。我们将为项目梳理范围,并为您配置合适的团队。

开启对话查看客户案例

计算机视觉图像注释：2026 年从业者指南

为什么技术选择会限制模型性能

边界框注释

多边形标注

语义分割

实例分割

关键点标注

图像分类和多标签标记

OCR、文档布局和结构化提取

选择正确的技术

混合管道：当一种技术不够时

工具和格式兼容性

特定领域的注释挑战

图像注释的质量指标

常见问题

继续阅读

向 AI 标注供应商必问的 SLA 与安全要求清单

Multimodal Sensor Data Collection for Robotics: Integrating RGB, Depth, Force, and Audio (2026)

携手打造 下一个里程碑

携手打造下一个里程碑