Telecom·Data Annotation Service·AU / NZ
呼叫中心规模的语音转录和说话人分类
12,000 小时联络中心音频的时间对齐文字记录、讲话者标签和声学事件标签——ASR + 分析堆栈的训练支柱。
12K
转录时间
4.1%
字错误率
挑战
一家为澳大利亚和新西兰的银行和电信公司提供服务的联络中心分析平台需要为内部 ASR 和说话人分类堆栈定制培训数据 - 他们现成的云转录在英语口音、代码混合和重叠语音方面遇到了困难。
隐私要求排除了将音频导出到通用供应商的可能性,并且他们的合规团队以数据驻留为由阻止了之前的三项提案。
方法
我们提供了一个岸上处理的注释管道,音频始终保存在客户的悉尼地区存储中,由受 NDA 约束的注释者通过强化的 VDI 访问。注释涵盖字级时间戳、说话者标签、情感标签和声音事件(静音、等待音乐、IVR 转换)。
每周与客户的机器学习团队进行一次校准会议,使标签指南与其不断发展的模型行为保持一致。
结果
在六个月内交付了 12,000 小时的转录和日记音频,在 500 小时的验证坚持下,测得的 WER 为 4.1%,超过了客户 5.5% 的接受阈值。
他们的生产 ASR 比计划提前三个月取代了第三方云服务,将每分钟的转录成本降低了 64%,并为澳大利亚三大银行解除了合同分析交付的障碍。