基准从来没有我们想象的那么干净
2021 年,麻省理工学院 Northcutt 领导的团队发布了“测试集中普遍存在的标签错误破坏了机器学习基准的稳定性”,对机器学习中被引用最多的 10 个数据集(其中包括 ImageNet、CIFAR-10/100、MNIST、QuickDraw、AudioSet、IMDB 和 Amazon Reviews)的测试集进行了审计。他们估计整个测试集的平均标签错误率为 3.4%,而 ImageNet 的平均标签错误率为 5.8% 左右。
标题的发现比方法论所暗示的要简单:在许多情况下,在嘈杂的地面事实上最准确的模型并不是在清理的地面事实上最准确的模型。两个类别之间边界处的少量标签错误足以翻转排行榜。如果该领域用来衡量进展的规范基准多年来隐藏了二十分之一的标签错误率,那么手工标记的企业数据集的实际先验很少会更好,而且通常会更糟。
这种不对称性使其成为结构性成本问题,而不是质量团队问题。 5% 的标签错误率听起来很小。在这些标签上训练的模型中,它产生的准确率下降很少为 5%。它通常要大几倍,集中在数据分布的长尾,其中模型需要最干净的标签,并且在验证过程中几乎不可能检测到验证集是否通过与训练集相同的过程进行标记。
以数据为中心的机器学习工程重构
过去几年,越来越多的工业证据重新定义了生产人工智能边际性能的实际来源。保持模型架构固定并迭代数据——清理标签、重新平衡类、细化模式、改进黄金面板——通常比保持数据固定并迭代架构更准确。这种模式在工业缺陷检测、医学成像、汽车感知和文档理解中最为明显,其中标记的域是有界的,但标签本身并不平凡。
斯坦福 HAI 发布的斯坦福年度人工智能指数在行业规模上追踪了同样的趋势:性能最高的生产系统是其团队在数据质量、评估管道和标签协议上投入过多投资的系统,而不仅仅是在较大的模型上。对于任何为人工智能项目制定预算的团队来说,实际意义是标签质量不是“数据操作”下的成本线。它是“模型准确性”下的一条性能线,以这种方式建模才能使预算合理。
NIST 的人工智能风险管理框架从治理方面强化了同样的结论。数据质量是 AI RMF 1.0 中明确的测量和映射维度之一,该文件明确表示“值得信赖的 AI”属性(准确性、可靠性、公平性、鲁棒性)是数据集质量的下游,不可与之分离。
标签噪音实际上来自哪里
在我们开展的活动中,标签噪音的主要来源并不是注释者的粗心大意。它们是结构性的——围绕个人注释者绩效审查设计的质量计划会系统性地忽略以下内容:
- 模棱两可的模式。两个注释者接受了相同的指导方针,但在边界类上有 12% 的时间不一致,这是指导方针问题,而不是劳动力问题。类定义需要工作,而不是团队。
- 概念漂移。项目第一周的规则将无法与第六个月的生产流量接触。如果没有重新标记的节奏,数据集就会默默地与模型在生产中面临的现实不一致。
- 阶级失衡。最罕见的类别是错误标签对模型性能影响最大的类别,也是在标准随机抽样策略下最不经常审核的类别。针对黄金面板的分层抽样是结构性修复。
- 工装摩擦。用户界面可以很容易地按下热键,或者隐藏裁决历史记录,从而产生看起来像注释器故障但实际上是界面故障的错误。更好的注释 UI 可以使准确率提高 2-3%,这是很常见的现象。
- 按件计价下的速度与质量权衡。当注释者按项目付费而没有质量门控时,在硬案例上花费的每一分钟都会损失金钱。该系统训练员工在硬箱上快速贴标签——这与项目所需的恰恰相反。
- 审稿人疲劳。多轮审核链底部的高级审核员是数据集的单点故障。如果没有轮换和负载平衡,审阅者疲劳是第 2 遍之后剩余错误率的一个有意义的部分的来源。
计算成本:一个有效的例子
不良标签的总成本很少被建模,因为它跨越多个预算线——数据操作、机器学习工程、评估、部署和客户影响。一个简单的示例说明了为什么行项目视图大大低估了成本。
想象一下用于金融交易欺诈检测的二元分类模型。训练集包含来自供应商的 1,000,000 个标记示例,其单位费率可产生 50,000 美元的注释预算。标签错误率为 5%——在没有记录的 QA 计划的情况下,这是一个现实的先验。训练集中有 50,000 个错误标记的示例。
在训练方面,这 50,000 个错误标签会传播到模型权重中。模型精度在生产分布上下降了 6-10 个点。为了恢复这种准确性,机器学习团队在更强大的硬件上运行更长的训练周期(额外的 5-10 倍计算成本,例如 30,000 美元),扩展评估小组以检测回归(额外 1-2 周的工程师时间,例如 20,000 美元),并稍后发布模型,错过了下一季度欺诈预防版本的发布窗口(收入和客户影响成本,通常为六位数)。
在生产方面,模型编码的残留标签噪声在部署中再现为无声故障案例。误报会削弱客户的信任;漏报导致直接欺诈损失。调查每个错误标签并将其添加到下一个训练集的成本是链中任何位置的每个错误标签成本最高的一条——检测和修复单个生产检测到的错误标签的总成本通常是注释期间检测和修复相同错误标签的成本的 100 倍。
当针对实际程序进行建模时,算术变得不那么抽象。 50,000 美元的注释预算和 5% 的错误率通常会产生 300,000 美元到 1,000,000 美元范围内的全部下游成本,具体取决于模型的监管程度和面向客户的程度。在这种工作规模上,强注释程序和弱注释程序之间的价格差异很少超过 20,000 美元,这使得 QA 投资成为预算中最简单的决定。
尽早捕捉标签噪音的指标
在标签噪音传播到下游之前捕获它比之后捕获它要便宜得多。三类度量一起使用,可以显示典型注释管道中的大部分残留误差。
第一个是注释者间协议(IAA)。两个或多个注释者独立标记同一样本;一致性是通过统计来衡量的。 Cohen 的 kappa 是分类标签的标准成对度量,Fleiss 的 kappa 泛化到多个注释器,Krippendorff 的 alpha 处理序数或区间任务和缺失数据。在运营中,重要的数字很少是对 80% 的简单示例的一致意见,而是对指南最薄弱的 20% 的困难示例的一致意见。班级级别的 kappa 报告(而不是单个标题数字)是推动下一次指南修订的操作工件。
第二个是金牌准确性:一组预先裁定的 200-1,000 个示例,以滚动的节奏对每个注释者进行评分,并在新注释者发布生产标签之前对其进行认证。金色面板是随项目一起传播的真相来源,必须每 8-12 周刷新一次,以防止团队隐式记住它。
第三种是自信学习风格的审核:训练基线模型,使用其预测概率来估计哪些标签最有可能是错误的,并将这些样本传回重新审查。该技术在开放的 ML 研究文献中有详细记录(原始的 Confident Learning arXiv 论文是规范参考),并且通常会更早且以更低的审查成本提出与仔细的 IAA 计划相同的问题。
按领域划分,“足够好”是什么样的
标签质量的验收标准并不通用。在内容审核方面可接受的相同数据集错误率将无法满足医学成像或自动驾驶方面的监管标准,并且对于一个程序来说保守的目标对于另一个程序来说是浪费。
- 受监管且安全关键(医疗保健、自动驾驶、金融欺诈检测):针对分层黄金面板的现场级准确率超过 99%,在决策边界上进行两遍注释并进行高级裁决,并在监管要求时由领域专家签字。 Kappa 在最难的级别上的目标通常是 0.90+。
- 面向客户的人工智能(搜索相关性、排名、对话代理):96-98% 的现场级准确率。主动学习路由将不确定的情况呈现给高级审阅者,其余的则通过同行抽查进行单遍注释。
- 内部工具和分析(情绪、意图分类、文档分类):准确度为 92–95%。边际误差的成本受到内部用户的限制,因此投资回报率倾向于更广泛的模式覆盖范围,但每个示例的准确性稍低。
- 研究和探索性标签:较低的固定标准,但有残留错误率的明确记录,以便下游消费者(根据探索性数据构建生产模型的团队)可以围绕它进行计划。
常见的成本规避陷阱
大多数对标签质量的投资不足从表面上看是合理的,但从总体上看却是昂贵的。三个陷阱反复出现:
“我们将在评估中修复它”陷阱。该计划是在下一个训练周期中快速训练、积极评估并清理数据集。问题在于,在噪声标签上训练的模型会生成噪声评估预测,评估揭示的实际错误比团队预期的要少,并且清理成本仅从注释预算转移到机器学习预算 - 通常以更高的小时费率。正确的模式是在注释时投入 QA 预算,这是最便宜的。
“自助服务质量”陷阱。内部团队尝试在没有记录的质量检查程序的情况下在内部运行注释,以避免外部供应商的成本。行项目率较低;总成本通常更高,因为内部注释员是兼职的,在主要职责之间工作,缺乏滚动黄金面板,并且与专用的外部 Pod 相比,生成的标签具有更高的残余错误率。混合模型——内部 Pod 存储敏感数据,外部合作伙伴存储大容量数据,两者共享黄金面板——是持续降低总成本的模式。
“最低的行项目率获胜”陷阱。报价低于市场平均水平 30% 的注释供应商很少是通过运营效率来做到这一点的——他们是通过较低的注释员工资、较高的营业额、较少的 QA 或经验不足的团队来做到这一点。成本差异显示在返工周期中,而不是合同中。在签署最低费率投标之前对总成本(返工劳动力、机器学习工程师时间、部署延迟、客户影响)进行建模可以防止这种陷阱。
预先预算标签质量
我们在企业人工智能预算中看到的最可靠的模式是将注释行项目预先分成三个子预算:生产标签、QA 基础设施(黄金面板构建、模式版本控制、审计计划)和指南维护(在整个项目生命周期中修改模式和重新认证注释器的滚动成本)。
持续计划的典型划分是 70% 的生产标签、20% 的 QA 基础设施、10% 的指南维护。乍一看,将 30% 分成 QA + 维护,感觉成本很高。相对于 QA 基础设施所阻止的全部生产成本,它也是最便宜的订单项。为 30% 的资金不足而为 70% 的资金过多的团队通常会在 6-12 个月后发现,他们在返工、ML 工程师时间和部署延迟上花费了同等的金额,而没有任何 QA 投资本应产生的结构耐久性。
另一个值得明确标记的预算线是移交时的数据集审计节奏。数据集是版本化的工程制品,附带文档:标签指南、黄金面板、抽样 QA 报告、按类别划分的 IAA 分数以及与先前版本的增量。这是让数据集能够经受供应商变更、模式迁移和监管审查的产物。它的预算是注释预算的百分之几;不为其制定预算通常会丢失与原始供应商锁定的数据集。
常见问题
AI 领导层和采购团队在对标签质量成本进行建模时提出的常见问题:
- 如果没有干净的参考集,我如何知道我的数据集存在标签错误问题?对基线模型运行置信学习风格审核,对模型的最低置信度训练集预测进行采样,并由高级评审员进行裁决。审核子集的残余错误率高于 3% 意味着生产数据集存在值得调查的质量问题。
- 我应该为新注释程序的 QA 基础设施预算多少?在构建黄金面板和指南时,前 6 个月注释预算的 20-25%,在稳定状态下降至 10-15%。 QA 预算是剩余注释预算将产生多少实际模型相关准确性的最佳预测因素。
- 合成数据可以替代清洁标签吗?部分地,针对合成数据生成器经过良好校准的任务。结构限制是合成数据继承了生成器的假设,并且验证这些假设仍然需要标记的参考数据。真实和合成的混合管道以及真实子集上记录的标签质量是经过审核的模式。
- 我是否应该重建早于当前 QA 规则的遗留数据集?按影响进行分类。在受监管领域驱动面向客户的模型的数据集是首要任务;内部分析数据集可以更慢地重新设定基线。遗留数据集的审计成本通常是原始注释成本的 5-15%,返工成本根据残余错误率对下游模型的损害程度而变化。
- 在评估过程中如何比较供应商的标签质量?使用相同的金牌面板和相同的验收标准运行付费试点。试点的 kappa 分数和审核通过率是可比较的人工制品。透明记录的供应商和仅提供标题准确性声明的供应商处于截然不同的可靠性类别。


