注释者间协议:控制注释预算的指标

IAA 是区分“我们可以训练的标签”和“我们正在猜测的标签”的杠杆。本指南详细介绍了如何选择正确的统计数据、什么算作合理的分数、如何在不超出预算的情况下实施测量,以及如何像模型风险审核者那样阅读每类协议报告。

13 min read由 DataX Power 团队提供
显示分析仪表板的笔记本电脑 – 跨数据注释程序跟踪注释者间协议指标

为什么一致性是衡量标准,而不是准确性

准确性假定已知的基本事实。在大多数企业注释工作中,基本事实正是团队试图制造的。注释者间协议(IAA)是最接近的诚实替代品:衡量两个或更多独立审阅者是否在给定相同示例和相同指南的情况下为其分配相同的标签。

它重要的原因是结构性的。在审阅者 20% 的情况下不同意的数据集上训练的模型具有 20% 的性能上限 - 任何架构变化都不能使其高于本底噪声。在许多组织中,最具成本效益的人工智能投资并不是新模式;而是新模式。它将模糊类别上的 IAA 从 0.65 拖到了 0.85。第一步大致是指南修订和黄金面板重建。第二个是六个月的模型架构工作,可能会也可能不会产生类似的提升。

IAA 还在长时间运行的注释程序中充当操作预警信号。当批次 N 和批次 N+1 之间对特定类别的一致性下降时,团队可以在噪声标签传播到模型中之前进行调查。如果没有 IAA 报告,在 4-8 周后进行模型评估之前,相同的下降是看不见的,此时训练集中已经存在数千个错误标记的示例。

为任务选择正确的统计数据

IAA 是一系列统计数据,而不是单一指标。选择错误在仪表板上看起来很好,但在审核中失败。这四个指标几乎涵盖了所有企业注释模式:

  • Cohen 的 kappa – 两个注释器,分类标签。纠正机会协议。 Landis 和 Koch (1977) 的标准读数:<0.40 较差,0.41–0.60 中等,0.61–0.80 显着,>0.81 近乎完美。任何小型成对程序的默认设置。
  • Fleiss' kappa – 三个或更多注释器,固定的类别集。广泛用于放射学和病理学,由三名或更多临床医生组成的小组对同一研究进行标记。在不失去机会校正属性的情况下推广了 Cohen 的 kappa。
  • 克里彭多夫的阿尔法——家族中最灵活的。处理缺失数据、序数和区间尺度、任意数量的注释器。 Klaus Krippendorff 的《内容分析:方法论简介》仍然是规范的参考文献。混合注释程序的默认设置,其中架构涵盖分类标签类型和序数标签类型。
  • F1 或 IoU 与黄金面板 - 用于很难定义机会一致性的跨度标记、分割和边界框任务。与由高级注释员审查的 200-1,000 个裁定示例组成的分层黄金小组配对。生产简历和文档提取团队实际报告的指标。

一个有效的数值例子

该算术阐明了为什么机会校正的 kappa 与原始一致性存在重大差异。想象一下两个注释器,每个注释器在二元“欺诈/非欺诈”分类上标记 1,000 个示例。

他们对 1,000 个例子中的 900 个达成一致。原始一致性为 90%——这个数字在幻灯片上听起来很健康。然而,科恩的 kappa 需要对考虑到边际类别频率偶然发生的一致性进行修正。如果 95% 的数据集被两个注释者标记为“非欺诈”,则预期机会一致性约为 0.905。因此,kappa 为 (0.90 − 0.905) / (1 − 0.905) ≈ −0.05 – 比偶然性更差。

显示 90% 原始一致性的幻灯片和显示 kappa ≈ -0.05 的幻灯片描述了相同的数据集。第一个隐藏了失败;第二个揭示了它。报告严重不平衡分类工作的原始协议的供应商要么缺乏经验,要么希望审阅者不会发现它。无论哪种情况,正确的问题是“什么是 kappa,按类别细分?”

“好”的真正含义是什么

平衡分类任务的 0.85 alpha 可以隐藏最稀有和最重要的类别的 0.50 alpha。任何 QA 报告中值得发布的数字都不是单一的标题 IAA,而是每个类别的 IAA,加上一份分歧簇报告,该报告确定审阅者最常出现分歧的具体案例或类别边界。

对于一般企业分类工作,标题指标的目标为 κ > 0.80,最难的个体类别的目标为 κ > 0.75。对于受监管和安全关键的领域(医学成像、自动驾驶感知、金融欺诈检测),门槛更高,指标也更广泛。 BraTS 脑肿瘤分割挑战赛自 2012 年起每年举办一次,每个案例需要多名专家评估员,并根据汇总参考报告 Dice 分数,并明确处理评估员间的变异性。现在,大多数向 FDA 和 EMA 提交的临床人工智能报告都包含某种形式的评估者间协议证据,作为数据质量叙述的一部分。

对于跨度标记和边界框任务,针对黄金面板的 F1 是正确的指标,并且条形图与任务相关。使用结构化 KV 对进行文档提取工作通常以 F1 ≥ 0.90 为目标,并进行每个字段的报告。汽车感知数据集上的目标检测的目标是 IoU ≥ 0.5 的 mAP,以及每类的精度和召回率,以及按类别记录的残余错误率界限。

IAA 的常见误用

IAA 是一种精密仪器,如果使用不当,会产生误导性的数字。我们在生产计划中最常看到的误用:

  • 仅报告标题指标。单个数据集级别的 kappa 或 alpha 数字与单个数据集级别的准确度数字大致具有相同的信息级别。每类报告是实际质量问题的表面,也是监管者或模型风险审查者会要求的工件。
  • 测量错误的样品。 IAA 对每批次中随机 5% 的数据进行计算,将低估最稀有类别的代表性并夸大标题数字。针对黄金面板的分层抽样是结构性修复——对稀有类别和困难类别进行过度抽样,与它们的重要性成比例,而不是它们的频率。
  • 比较不同类别的 kappa。 Kappa 值在类别定义之间不能直接比较。二进制类别上的 kappa 为 0.78,而 14 路类别上的 kappa 为 0.78,说明了实质上不同的可靠性级别,因为每种情况下的机会校正基线都不同。
  • 忽略边际分布。高度不平衡的数据集产生的 kappa 值对边际频率的微小变化很敏感。如果基础类组合发生变化,前一批的 kappa 和当前批次的 kappa 可能会相差 0.1,而注释器行为不会发生实际变化。合理的反应是一起跟踪 kappa、边际频率和每类精度,而不是单独跟踪 kappa。
  • 将低 IAA 视为注释器故障。当某个类的 IAA 崩溃时,我们的反应是重新培训注释者团队。在实践中,模态原因是指南模糊或模式不匹配——注释器不是错误,类定义才是。防御性剧本首先研究指南,其次研究校准,最后研究个体注释者的表现。

在不超出预算的情况下实施 IAA

在生产规模上测量每个示例的一致性在操作上是不可行的。无需不可持续的成本即可产生可防御的 IAA 计划的模式:

  • 每批次运行 10–15% IAA 样本,按类别分层。稀有类别的采样率高于其自然频率,因此每个类别的 kappa 具有统计意义。
  • 首先将分歧视为指导信号,其次是注释者信号。如果两个经过校准的注释者在同一示例上一周三次出现分歧,则该示例就是错误 - 指南需要针对这种情况提供一个可行的示例。
  • 维护一个由 200-1,000 个裁决示例组成的版本化黄金小组。此后在入职和定期重新认证(每 4-6 周)时针对它运行新的注释器;将随时间的漂移报告为与每批次 IAA 分开的指标。
  • 模型评估流程中的表面 IAA。当模型和小组对评估示例存在分歧时,请注意小组本身是否不同意该示例 - 小组的分歧是有噪声的地面实况信号,而不是模型回归。
  • 在整个团队中轮换 IAA 审阅者。重复共同标记相同样本的两个注释者将相互校准,而不是根据指南进行校准,从而产生人为的高 kappa 值,而这些值不会转移给新的审阅者。

像审稿人一样阅读 IAA 报告

IAA 报告是与数据集一起进入模型风险审查、监管机构提交或下游消费者引导的人工制品。经得起审查的形状有五个组成部分。

  • 每个指标的标题 IAA(Cohen 的 kappa、Krippendorff 的 alpha 或相对于黄金的 F1),以及置信区间和计算所依据的样本量。
  • IAA 指标的每个类别细分,以及每个类别的边际频率。 90% 频率类别上的 kappa 为 0.85 与 2% 频率类别上的 kappa 为 0.85 有很大不同。
  • 随时间变化的趋势 – 过去 6-12 个月长期运行约定的每批次 IAA 历史记录。评论者不仅关注标题,还关注趋势。稳定的 IAA 计划比那些在没有记录原因的情况下批次间波动的计划更具有防御性。
  • 分歧簇摘要——审稿人在本批次中最常出现分歧的特定类别边界或示例类型,以及示例案例和裁决结果。下一次指南修订的最高杠杆工件。
  • 方法说明——样本分层、审稿人轮换政策、黄金面板刷新日期以及 IAA 指标选择理由。该工件允许下游两个组织的审核者验证数字,而无需重新运行审核。

完全跳过 IAA 的隐性成本

我们看到的最昂贵的故障模式并不是低 IAA。这不是 IAA。团队交付没有每类协议编号的数据集,在其上训练模型,发现模型在生产中表现不佳,然后重新运行整个标记周期来修复它。总成本(返工人工、ML 工程师时间、评估扩展、延迟部署)通常超出原始注释预算 5-10 倍。

在监管机构审查的领域,成本会更加复杂。模型风险审查员、EMA 和 FDA 检查员、新加坡和香港的 MAS 和 HKMA 模型风险框架以及 SOC 2 / ISO 27001 审核员都越来越多地要求提供标签本身经过测量的证据,而不仅仅是在其之上训练的模型准确性。没有 IAA 报告的数据集如果不改进测量方法,就无法在这些审阅者面前得到辩护,这比从第一天开始构建它要困难得多,成本也更高。

NIST 人工智能风险管理框架将数据质量和可追溯性视为一流的控制措施。 ISO/IEC 5259 是用于分析和机器学习的数据质量的新兴国际标准,明确将注释者间一致性列举为数据集的可测量属性。为遵守其中任何一个而设立的计划无需在最糟糕的时刻将 IAA 改造为标签管道。

关于 IAA 的常见问题

机器学习和数据操作团队在实施 IAA 计划时提出的常见问题:

  • IAA 样本需要有多大?默认操作为每批次的 10-15%(按类别分层)。较小的样本 (5%) 适用于稳定的长期运行业务,审计通过率始终高于 95%;较大的样本 (20-30%) 适合任何新模式的前几批。
  • 我们应该默认使用哪个 IAA 指标? Cohen 的 kappa 用于两个注释器分类工作,Fleiss 的 kappa 用于三个或更多注释器,Krippendorff 的 alpha 用于混合分类/序数/缺失数据程序,F1 或 IoU 与黄金面板用于跨度和边界框任务。
  • 我们应该多久刷新一次黄金面板?对于长期运行的约定,每 8-12 周一次。如果没有轮换,团队就会隐式记住面板,并且分数会失去其校准值。此次刷新也是添加已在生产批次中出现的新裁定的硬箱的最佳时机。
  • 注释者是否应该根据自己的作品查看 IAA 分数?是的,要小心。每个注释者 IAA 报告是校准辅导的正确工具;每个注释者与同行的 IAA 排名往往会产生竞争动态,从而降低整体质量。教练是针对金牌小组的,而不是针对同行排名的。
  • 我们可以使用模型协议来替代人工 IAA 吗?部分地。使用训练有素的模型来标记可能的错误标签的自信学习风格审核是一种有用的分类工具,但该模型有其自身的偏差。合理的模式是使用模型标记作为输入人类 IAA 程序的采样信号,而不是替代它。
Data Annotation Service

Looking to operationalise the dataset thinking in this post? Our data annotation services Vietnam pod handles collection, cleaning, processing, and pixel-precise annotation across image, video, text, audio, document, and 3D point-cloud data.

携手打造 下一个里程碑

告诉我们您的挑战 – AI、数据或基础设施。我们将为项目梳理范围,并为您配置合适的团队。