Insurance·Infrastructure Service·Australia
削减索赔自动化平台的人工智能基础设施支出
我们对保险公司的训练和推理堆栈进行了检测,将批处理作业转移到现货容量,并引入了机器学习团队日常实际使用的成本护栏。
−42%
云 GPU 支出
Nil
对模型速度的影响
挑战
一家澳大利亚保险公司在人工智能方面投入巨资,用于索赔分类和欺诈检测,但云成本的复合速度比业务案例假设的要快。财务部门希望重新调整支出;机器学习团队不希望模型发布的速度放慢。
现有的监控告诉他们花了多少钱——而不是哪些工作是浪费的,也不知道该如何处理。
方法
我们通过每个作业的成本归因来检测训练堆栈(PyTorch + Kubeflow)和在线推理堆栈(Triton),将每次运行都与模型、团队和业务用例联系起来。
通过自动检查点和重启将夜间批量重新训练和离线评估转移到现场容量,并根据观察到的流量引入用于服务副本的正确大小指导。
提供了一组护栏——失控作业警报、每个项目的默认配额、基于预算的限制——与 ML 团队现有的 Jira 和 Slack 集成。
结果
推出后第一季度 GPU 支出下降了 42%,模型发布节奏没有回归,也没有面向客户的延迟影响。
该保险公司的 FinOps 委员会现在使用我们为其余云资产中的 AI 工作负载构建的相同仪表板。