Legal·Data Annotation Service·Australia

企业合同平台的结构化提取标签

跨 90K 商业合同进行 OCR 级键值提取 - 条款输入、当事人标记和续订标志,字段级准确度高达 99.2%。

桌子上笔记本电脑旁边有一叠打印的合同文件
90K
已处理的合同
99.2%
现场级精度

挑战

为内部法律团队提供服务的企业合同生命周期平台需要标记培训数据,以对 28 种合同类型(当事人识别、条款分类、关键日期标记和续订条件标志)进行结构化提取,其质量标准足以取代手动审核。

商业协议中的自由文本变化打破了平台之前的提取方法,在混乱的合同系列中,字段级准确率停滞在 91% 左右。

方法

我们组建了一个由具有公司法背景的律师助理领导的注释团队,并构建了一个自定义标签工具,突出显示不明确的条款以进行第二次审查。架构设计是与平台的机器学习和合法产品负责人联合迭代的,并在版本化的剧本中捕获了边缘案例的裁决。

每份文档都经过自动预 OCR、主要注释和基于抽样的 QA 层,该层盲审了 10% 的已完成工作。

结果

在验证集上以 99.2% 的现场级准确度交付了 90K 个标记合同,将平台的生产提取模型在客户盲基准上从 91% 提升到 97.6%。

他们最大的客户将每份文档的平均合同审核时间从 41 分钟减少到 9 分钟——这是他们续约的基石指标,也是 340 万澳元 ARR 保留的直接杠杆。

携手打造 下一个里程碑

告诉我们您的挑战 – AI、数据或基础设施。我们将为项目梳理范围,并为您配置合适的团队。