数据注释劳动力模型:托管团队、众包、内部

最便宜的注释劳动力并不是每标签费率最低的劳动力。它是在您所需的精度水平下总成本最低的一种。

9 min read由 DataX Power 团队提供
数据注释劳动力模型 - 在现代办公室的办公桌上工作的托管注释团队

三种注释劳动力模型

每个运行数据注释程序的组织都有意识或默认地从三种劳动力模型中进行选择:众包平台(Mechanical Turk、Scale AI dance、Appen)、托管专用团队(具有专门团队任务的离岸注释供应商)或内部注释人员。

这些模型的大多数讨论都集中在单位成本上。该框架具有误导性。正确的比较是在您的用例实际需要的准确度水平上的总程序成本。如果诚实地进行比较,就会发现这三种型号占据了明显不同的利基市场,其重叠程度比单位定价所暗示的要少得多。

众包:它的优点和缺点

众包注释启动速度确实很快,对于简单任务来说确实很便宜,对于复杂任务来说确实不可靠。当满足以下所有条件时,众包的理由最为充分:任务明确(未经培训的人可以正确完成任务),数据不包含敏感信息,可以通过冗余廉价地验证质量(每个项目有 3-5 个注释器,获得多数票),并且程序是一次性批次而不是持续的生产运行。

当满足以下任一条件时,反对众包的理由是最有力的:任务需要在复杂的边缘情况下进行一致的判断,数据敏感(医疗、法律、财务或专有),您需要复合的跟踪记录(随着时间的推移在特定任务上改进的注释者),或者您需要视频或顺序数据的时间一致性。

  • 众包注释的典型 IAA (Kappa):0.62–0.78(通常被认为是“公平”到“中等”一致性)。
  • 受管理的专业团队的典型 IAA:0.82–0.94(通常被认为是“良好”到“优秀”)。
  • 通过冗余进行质量验证(3倍覆盖率):对于捕获随机错误有效,对于捕获所有注释者都以相同方式产生的系统错误无效。
  • 数据安全:众包平台将数据暴露给世界各地的未知工人。未经明确的法律审查,不得通过众包平台处理 PII、专有数据、医疗数据和法律数据。
  • 返工成本现实:众包注释程序通常需要总输出的 15-30% 返工。当返工成本添加到每个标签的比率时,相对于托管团队的总成本优势通常为 10-30%,而不是通常假设的 60-70%。

管理专门团队:支持和反对的理由

托管注释团队通常由越南、菲律宾、印度或东欧的离岸供应商提供,是分配给特定客户或项目的专门注释者小组,而不是同时分布在许多任务中。其决定性特征是,同一团队日复一日地注释您的数据,积累特定于项目的专业知识。

这种专业知识的积累是管理团队相对于众包的主要质量优势。标记了特定数据集的 100,000 帧的注释者能够以新的众包工作人员无法复制的方式了解您的边缘情况、产品类别、注释约定和质量期望。

  • 设置时间:管理团队计划在生产开始前通常需要 2-4 周的时间进行入职、指南培训和试运行。众包可在 48-72 小时内开始。
  • 质量轨迹:随着注释者内化项目特定的边缘案例,管理团队的准确性在持续计划的第 1 个月到第 3 个月之间通常会提高 8-15%。
  • 数据安全:管理团队签署特定于项目的 NDA,根据 ISO 27001 协议进行操作,并且可能受到数据驻留限制。只有通过高级级别的众包,这才可以大规模实现。
  • 团队连续性风险:管理团队的主要运营风险是注释者流动。年流失率超过25%的供应商将无法维持专业知识积累优势。明确询问营业额指标。
  • 成本比较:标准注释任务的托管团队费率为 0.08-0.50 美元/项目(越南供应商),而众包平台的费率为 0.03-0.20 美元/项目。在同等准确度水平(根据返工进行调整)下,大多数任务类别中的差距缩小到 20-40%。

内部注释团队:当构建有意义时

建立内部标注团队是控制力最高、成本最高的模式。它在特定情况下是有意义的:当注释任务如此专业以至于没有外部供应商能够开发所需的专业知识(例如,专有的传感器数据格式或公司独有的专有分类系统)时,当竞争敏感性如此极端以至于任何外部供应商关系都会产生不可接受的风险时,或者当注释量始终高到足以证明内部人力资源和培训职能的开销是合理的时。

大多数建立内部注释团队的组织都会在 12-24 个月内发现管理费用(人力资源、管理、质量系统、工具、保留)超过了不支付供应商利润所节省的成本。经济学在规模上发挥作用(超过 20 名专门注释者),但很少在较小的团队规模下发挥作用。

  • 盈亏平衡分析:内部注释团队通常在 15-25 名专用注释员的托管供应商中具有成本竞争力,并考虑人力资源、管理、工具和培训成本。
  • 混合模型:许多大型人工智能团队运行一个小型内部注释核心团队(5-10 人),负责质量体系开发、指南创建和质量保证,并将生产量外包给受管理的离岸团队。这无需承担内部制作团队的全部管理费用即可获得专业知识优势。
  • 保留风险:由于任务的重复性,注释工作在大多数市场中都有很高的周转率。内部团队面临着与外部供应商相同的保留挑战,但供应商没有能力在多个客户之间分担流动成本。

质量比较:按劳动力模型划分的 IAA 分数

注释者间一致性 (IAA) 是最可靠的跨模型质量比较指标,因为它在相同条件下衡量一致性,而不管生成标签的劳动力模型如何。

典型的 IAA 按劳动力模型划分,基于标准注释任务(图像分类、边界框检测、文本情感)的生产数据:

  • 众包(2×冗余,多数票):Kappa 0.62–0.72。
  • 众包(3×冗余,多数投票):Kappa 0.70–0.80。
  • 管理团队,第 1 个月:Kappa 0.78–0.85。
  • 管理团队,第 3 个月以上:Kappa 0.85–0.94。
  • 内部团队、经过培训的专家:Kappa 0.88–0.96。
  • 专家领域注释者(医学、法律):Kappa 0.72–0.85(低于预期,因为领域专家对边缘情况存在真正的专业分歧)。
  • 注意:这些范围假定构建良好的注释指南。无论劳动力模式如何,糟糕的指导方针都会使所有数字减少 10-20 Kappa 点。

劳动力模型决策矩阵

使用此框架来确定哪种劳动力模型适合您的特定注释程序:

  • 如果满足以下条件,请使用众包:任务简单且明确、数据不敏感、一次性批量、启动速度是主要约束、每项预算是约束约束。
  • 如果满足以下条件,请使用托管团队:任务需要一致的判断、持续的生产计划、敏感数据(PII、医疗、法律、专有)、需要时间一致性(视频)、领域专业知识是优势。
  • 如果出现以下情况,请使用内部注释:注释任务是您的系统专有的、竞争敏感性禁止任何外部披露、数量始终大于 20 个注释器等效值,或者您处于供应商关系本身会产生合规风险的受监管行业。
  • 如果满足以下条件,请使用混合(托管团队 + 内部 QA): 您有足够的注释量,可以从外包规模经济中受益,但需要保留内部质量系统控制。

越南管理团队:亚太地区成本质量地位

越南的注释团队在全球注释市场中占据着与印度和菲律宾供应商不同的特定地位。强大的技术大学产出、东南亚英语水平高于平均水平的人口、政府对人工智能劳动力发展的投资以及比西方市场同等质量低 60-70% 的劳动力成本相结合,创造了难以匹敌的成本质量组合。

特别是对于亚太地区的人工智能团队来说,越南的注释供应商提供了文化和时区接近的额外优势。需要对东南亚产品类别、文化背景或当地语言细微差别进行判断的注释由嵌入该地区的团队比由印度或东欧的团队注释相同数据更准确。

Data Annotation Service

Looking to operationalise the dataset thinking in this post? Our data annotation services Vietnam pod handles collection, cleaning, processing, and pixel-precise annotation across image, video, text, audio, document, and 3D point-cloud data.

携手打造 下一个里程碑

告诉我们您的挑战 – AI、数据或基础设施。我们将为项目梳理范围,并为您配置合适的团队。