图像注释服务:2026 年供应商选择买家指南

并非所有图像注释服务供应商都是平等的。买家指南,介绍在评估企业计算机视觉程序的图像注释服务时要询问的功能、质量信号、安全状况和定价模型问题。

13 min read由 DataX Power 团队提供
相机镜头特写 - 评估计算机视觉管道的图像注释服务

为什么供应商对图像注释的选择比买家的预期更重要

计算机视觉模型达到了由其标记的训练数据设定的质量上限。麻省理工学院 2021 年对规范基准中标签错误的研究发现,十个广泛使用的数据集中的每一个都存在可测量的噪声,其中包括 ImageNet,其测试集中的标签错误率约为 6%。如果即使是公共基准多年来也隐藏了二十分之一的错误率,那么供应商生成的数据集的现实先验是整个市场的质量差异很大。

质量不匹配的成本会在下游显示为更长的训练运行、更低的验证 mAP 以及悄然降低的生产性能。预先选择合适供应商的成本是一次性评估周期。该比率有利于正确进行评估。以下是我们看到成功的计算机视觉团队在确定图像注释服务合作伙伴关系范围时使用的框架。

您的供应商必须支持的核心注释类型

一个可靠的图像标注供应商应该支持全系列的计算机视觉标注类型。如果供应商只做边界框,他们就无法应对随着时间的推移而发展的生产级项目。随着模型的成熟,模式几乎总是会扩展——从边界框开始,然后添加路面或背景的语义分割,然后添加用于姿态估计的关键点,然后添加用于深度感知感知的 3D。

  • 边界框(2D、轴对齐和旋转)。对象检测的基线。复杂性驱动因素是类数和每个框的属性密度,而不是框本身。
  • 多边形注释。对于不规则形状(植物、医学成像中的软组织、制造缺陷),边界框会失去有意义的精度。
  • 语义分割。用于场景理解的像素级类标签。用于医学成像、自动驾驶、卫星图像和密集城市感知的昂贵模式。
  • 实例分割。分离同一类别的单个对象 - 对于人群计数、多对象跟踪和零售货架分析至关重要。
  • 关键点标注。标记用于姿势估计(人体关节)、面部标志(AR、生物识别)、手部关键点(手势识别)或工业检查标志的特定点。
  • 图像分类和多标签标记。最简单的一端是为每张图像分配一个或多个标签。稀有类别的容量大、精度敏感。
  • 用于 ADAS 和自动驾驶感知的车道标记、可行驶区域和道路特征注释。通常与 3D 点云工作结合在统一的场景理解程序中。
  • 3D 边界框的长方体注释 - 2D 图像工作和完整 3D 点云注释之间的桥梁,特别是对于融合相机和 LiDAR 数据的 AV 程序。
  • 用于结构化提取的 OCR 和文档图像注释。广泛用于金融、法律、医疗保健和政府工作流程。
质量分析师在多个显示器上审查带标签的图像注释 - 代表黄金面板基准测试、注释者间协议和多次审查,将图像注释服务的强供应商与弱供应商区分开来

质量保证——最重要的区别因素

质量是大多数注释供应商脱颖而出或失败的地方。要求每个入围供应商详细描述他们的质量保证流程。模糊的答案(“我们有质量检查”)是一个强烈的危险信号——它们几乎总是表明单通道工作流程没有正式的注释者间协议协议。

严格的质量保证计划有六个可观察到的工件。要求每一项的证据,而不仅仅是承诺:

  • 版本化注释指南,包括困难案例的工作示例和源代码控制中的记录模式。无法向您展示其上一个项目指南的供应商将不会为您的项目提供可靠的数据集。
  • 在任何生产批次开始之前,对注释器进行培训并根据黄金面板进行校准。新注释者与小组的评分;供应商发布校准分数。
  • 对每批次的分层样本进行注释者间一致性 (IAA) 测量。指标应该是 Cohen 的 kappa、Krippendorff 的 alpha 或针对黄金面板的每类 F1。报告应该按班级进行,而不仅仅是标题平均。
  • 多轮评审:注释者自检、同行评审、高级评审员对决策边界的裁决。分歧会被记录下来,而不是默默地被覆盖。
  • 每批次的分歧集群报告——审稿人最常出现分歧的类别和案例。这是所有注释程序中影响力最高的质量保证信号,而文物购买者最常忘记询问。
  • 包含 200-1,000 个裁决示例的版本化黄金小组随项目一起传播。用于在新注释者入职时对新注释者进行评分,检测随时间推移的偏差,并记录数据集以供审核。

工具和格式兼容性

您的注释供应商应该与工具无关,或者支持您的 ML 管道所需的格式。常见的交付格式包括 COCO JSON、Pascal VOC XML、YOLO TXT、BIO 标签和自定义模式。询问供应商是否可以在您现有的工具(Labelbox、SuperAnnotate、V7、Encord、CVAT、Scale Nucleus、Roboflow、Label Studio)中工作或以您所需的输出格式提供。

对于多模式程序 - 图像加文档、图像加 3D 点云、图像加视频 - 明确询问他们提供了哪些组合。具有单模态工作经验的供应商可能很难在统一模式上维护跨模态标签的一致性。

有两个操作信号很容易被忽略:供应商如何处理项目中期的模式迁移(每个长时间运行的程序至少有一个),以及他们如何跨模式更改对黄金面板进行版本控制。拥有这两者的书面剧本的供应商比即兴发挥的供应商更可靠。

规模和吞吐量

注释需要秒杀。新的训练运行、数据集扩展、新的垂直产品、模型在新数据上失败后的回归批次——生产人工智能是一系列这些峰值,而不是平坦的基线。您的供应商需要与您一起扩展。

问三个具体问题。首先,您当前的注释者人数是多少,其中有多少人已经在我的特定数据类型(医学成像、AV 感知、卫星、零售等)中交付了工作。其次,你能以多快的速度将销量增加 10 倍——两周、四周、八周?第三,如何在安全驾驶员背景下完成临床医生审查的医学成像或 AV 感知等专业任务。

假设模式稳定,成熟的中端市场供应商(例如位于越南的数据注释服务 Pod)通常会在两到四个星期内从 5-10 个注释器试点扩展到 100-200 个注释器生产计划。专家人数(医学审查员、AV 感知领导)需要更长的时间,并且是受监管项目的瓶颈。

具有网络电缆和硬件的安全数据中心服务器机架 - 代表图像注释服务供应商必须对专有训练数据实施加密存储、指定用户访问控制和 VPC 绑定传输

数据安全和保密

未发布产品的图像数据集、专有医疗扫描、国防图像、客户生成的内容或财务 KYC 文档需要严格的保密控制。供应商的安全状况不是一个清单——而是一个值得审计的工件。具体询问这些:

  • 在共享任何样本数据之前签署 NDA 和 DPA。先要数据、后要文书工作的供应商是错误的供应商。
  • ISO 27001 一致性,具有当前认证或高级领导的书面一致性声明。 SOC 2 已做好面向美国的受监管工作的准备。
  • 注释者访问控制:指定个人登录、无共享帐户、对谁标记了什么的完整审计跟踪。
  • 针对敏感项目的安全房间工作政策:禁止个人设备、移动电话、禁止在家远程访问。对于医疗和国防工作来说,这越来越成为标准。
  • 数据存储和传输安全:静态和传输中加密、签名 URL 或 VPN 绑定传输、没有 S3 公共存储桶。
  • 本地部署或仅 VPC 部署选项。对于 PII、医疗、财务和监管文件,这应该作为一流的参与模型提供,而不是特殊情况。
  • 带有书面删除证书的项目后数据删除——默认在项目结束后 30 天内删除,除非审计需要更长时间的保留。

定价模型和合同结构

按任务类型定价的清晰图像注释合同可以协调买方和供应商之间的激励。提案中需要注意三点:

  • 按任务定价,无混合费率。用于边界框、多边形、分割、关键点和专业工作的单独线。混合费率几乎总是意味着简单的任务可以补贴复杂的任务——对某些买家来说很好,对另一些买家来说则昂贵。
  • 以书面形式修改政策。供应商对任何未达到 SLA 的批次进行返工,费用由其承担;买方只需为通过的批次付款。模糊的返工条款最终导致发票纠纷。
  • 试点或第一季度的参与没有最低每月承诺。供应商对自己的质量充满信心,买家可以按照自己的节奏进行采购;需要最低承诺的供应商正在对冲。

签字前要问的问题

将此列表带入供应商电话会议,而不是事后从甲板上读回它。来自这些问题的对话比任何书面提案都揭示了更多内容:

  • 您能否分享我的特定领域中之前图像注释工作的清理样本(或者,对于受监管的工作,您可以安排与类似客户的参考电话)吗?
  • 你们的注释者间协议是什么?我可以查看示例批次报告吗?
  • 对于 10,000 张图像边界框试点,从 NDA 签名到端到端,您的平均周转时间是多少?
  • 您是否支持在 NDA 下对专有或敏感图像进行注释,并且如果需要,您可以在我们的 VPC 或本地环境中部署吗?
  • 您的团队使用哪些注释工具?您可以与我们的管道集成(Labelbox、V7、CVAT、Label Studio、自定义)吗?
  • 您如何处理注释者之间对模棱两可的案例的分歧?由谁裁决?裁决是否记录在案?
  • 您如何从试点扩展到生产——具体来说,您发布的从 10 名注释者增加到 100 名注释者的时间表是怎样的?
  • 参与结束时会发生什么 - 数据删除证书、指南和黄金面板的知识转移、正式移交审核?

危险信号——持续预测不良参与的模式

我们观察到的最糟糕的图像注释活动之前出现的模式。其中任何一项都是强烈的负面信号:

  • 供应商拒绝付费试点或在完成任何示例工作之前推动数月的承诺。
  • 提案中的 QA 描述未指定特定的 IAA 指标、黄金面板大小或审核通过计数。
  • 不愿意与类似客户分享经过消毒的样品或安排参考电话。
  • 每项资产的价格大大低于市场底线,并且没有解释如何在该价格下维持质量。
  • 合同上没有指定专门的项目经理。买家最终直接与注释者协调。
  • 供应商无法描述他们如何处理从一个标签平台到另一个标签平台的迁移——这在长期运行的项目中几乎是普遍的需求。

常见问题

企业计算机视觉团队在确定图像注释服务参与范围时最常提出的问题的简短参考:

  • 试点图像注释供应商的正确方法是什么?发送 200-500 个具有代表性的图像示例以及您打算在生产中使用的架构。根据您自己的 50-100 图像黄金面板对返回的批次进行评分。对同一样本上的两个或三个供应商进行同类比较。
  • 飞行员需要多长时间?成熟供应商签署 NDA 后 5 到 10 个工作日。任何明显长于 500 张图像批次的时间都表明操作不成熟。
  • 越南的 Pod 能否提供受监管的医疗或 AV 感知工作?是的 – 在 QA 层有合适的专家评审小组以及本地或 VPC 部署选项。该模式对于这两种方式都是成熟的。
  • How do I avoid paying for rework?协商一项返工条款,要求供应商自费重做任何未达到 SLA 的批次。在签名之前明确定义 SLA 指标(针对黄金面板的每类 IAA 或每类 F1)。
  • 对于相同的图像注释工作,每资产费率和每小时费率之间的典型成本差异是多少?对于明确定义的大批量工作,每项资产的费率会更便宜;对于具有大量指南迭代的复杂模式,每小时费率会更便宜。正确的测试是在每个模型下确定付费试点的范围,并最终比较每个标记资产的真实成本。
Data Annotation Service

Looking to operationalise the dataset thinking in this post? Our data annotation services Vietnam pod handles collection, cleaning, processing, and pixel-precise annotation across image, video, text, audio, document, and 3D point-cloud data.

携手打造 下一个里程碑

告诉我们您的挑战 – AI、数据或基础设施。我们将为项目梳理范围,并为您配置合适的团队。