为什么旧的成熟度模型不再起作用
2020-2022 年流行的 AI/MLOps 成熟度模型对于当时的工作负载来说是正确的。他们假设训练服务分割、模型注册、特征存储、漂移监控以及类似于表格分类器的 CI/CD 的管道。对于那个世界来说,它们大多仍然停留在架构图的层面上。
对于 2026 年实际存在的世界企业 ML 团队来说——经典表格 ML、LLM 支持的工作流程、代理系统、边缘推理和日益严格的监管审查的混合——这些模型有太多未提及的内容。经典机器学习成熟度标准仍然很重要; LLM 评估、代理可观察性、FinOps 成本归因、监管可追溯性和人机参与治理等新类别必须明确添加,而不是视为未来的工作。
接下来的成熟度模型是我们目前对可靠交付人工智能的团队与不断感到惊讶的团队的区别的解读。它的结构分为五个级别,下面有一个每轴评分框架,因此组织可以识别其维度之间的特定不匹配,而不是根据隐藏故障模式的单个复合数字对自己进行评分。
1 级——临时
生产中运行的笔记本、手工运输的模型、在共享驱动器中跟踪的实验。一名工程师知道如何重新训练,当他们休假时,模型就会保持陈旧。除了开发商自己抽查之外,不做任何评价。没有任何东西的版本控制。通常直到事件暴露出来才意识到这是一个问题。
您处于第一级的操作标志:没有人可以从头开始复制当前的生产模型。 “模型运行良好”是一种信念,而不是一种衡量标准。每次迭代模型更新需要一周的手动工作。部署是由一名工程师在笔记本电脑上运行脚本。文档(如果存在)在下一次更改发布时已过时。
到 2026 年,1 级持续比已发布的行业调查显示的更为常见。可见性问题是结构性问题:处于 1 级的组织没有可观察性来知道自己处于 1 级,并且不存在向监管机构证明这一点的审计跟踪。
2 级 – 可重现
可以从版本化代码和版本化数据重建模型。使用既定工具,整个团队的实验跟踪是一致的。模型注册表是存在的,并且是“生产中的内容”的真实来源。部署仍然主要是手动的,但可以预测,并有记录的运行手册。监控仅限于基础设施指标(延迟、错误率、吞吐量),在平台层之外几乎没有特定于 ML 的可观察性。
您处于第 2 级的操作标志:团队中的任何 ML 工程师都可以回答“生产中正在运行什么以及它是如何构建的?”不到一个小时。历史实验可以根据需要重新运行。部署每周进行一次,而不是临时进行。新的团队成员可以在几天而不是几周内入职,因为可重复性规则会产生工作文档作为副作用。
第 3 级 – 持续集成
ML 管道经过与应用程序代码相同严格的 CI 测试。数据质量检查在摄取时自动运行。培训和评估按照记录的节奏自动进行,而不是手动触发。特征存储(针对表格工作负载)或明确管理的嵌入和检索堆栈(针对 LLM 工作负载)已到位,并被视为一流的平台资产。金丝雀和影子部署是标准的,而不是特殊的。基本模型监控——漂移、黄金面板性能、预测分布——连接到平台可观测层。
对于 LLM 支持的 3 级系统,评估套件存在并在每个带有质量关卡的版本上运行。系统提示与使用它们的应用程序代码一起在源代码管理中进行版本控制。工具目录由许可名单和每个工具的所有权进行管理。每个请求的成本和延迟遥测都存在,并提供与平台其余部分相同的可观察性堆栈,因此工程师可以看到“此查询成本为 3 美分,耗时 800 毫秒”,而不是根据汇总的供应商发票进行工作。
对于第 3 级基于代理的系统,每步轨迹指标(采取的步骤、调用的工具、重试、终止正确性)与总体质量一起进行跟踪。该代理在生产中是可调试的,而不是不透明的。
4 级——持续部署
由质量信号或时间表触发的自动再训练,以及阻止回归部署的评估门。由策略管理的流量转移(成功指标的金丝雀提升,异常阈值的自动回滚)。根据生产者-消费者合同提供管道。训练与服务偏差作为一流指标进行主动监控。 GPU 资源通过适当的排队系统而不是先到先服务进行调度,并具有与组织的工作负载组合相匹配的公平共享、优先级和抢占策略。
对于 4 级的 LLM 系统,评估套件包括每周回滚到回归集中的生产采样输入。模型交换(在提供商之间移动、将边界交换为微调的小模型)是一个有记录的操作手册的计划操作程序,而不是一个为期数周的项目。对实时流量的影子模式评估可以在用户之前捕获回归。每个功能的成本归属可供产品经理使用,而不仅仅是平台工程师,因此人工智能成本决策可以在收入信号所在的产品级别做出。
对于第 4 级的代理系统,第 3 级的轨迹指标与部署门相关联——轨迹质量的下降(更长的工具链、增加的重试率、不寻常的终止模式)会阻碍升级,就像经典模型精度回归一样。
5 级 – 闭环和受控
第 4 级机械地执行的操作,第 5 级执行的治理是为了在监管审查中生存下来,以及组织设计是为了在审查中保持高速度。机器学习和人工智能系统已指定负责人进行值班轮换。风险评估会根据重大变化而不是每季度进行更新。文档是作为操作的副作用从管道生成的,而不是手动维护的。再培训决定是可审计的。该组织可以回答监管机构的“告诉我如何控制这个系统”,而无需进行数周的消防演习。
在技术方面,5 级增加了: 按计划自动红队,而不仅仅是发布前;跨受保护维度的自动化公平性和偏见监控,并记录阈值;清晰、记录在案的路径,用于人机交互推翻任何高风险决策;以及一个跨团队目录,其中功能、嵌入、提示、模型和代理定义由沿袭、所有权和变更审核进行管理。
在监管方面,5 级生成了欧盟人工智能法案第 9-15 条要求、NIST 人工智能风险管理框架采用、ISO/IEC 5259 数据质量合规性以及亚太地区个人数据保护制度日益需要的审计就绪证据管道。将这些证据制品改造到 3-4 级系统需要几个月的时间;在 5 级构建它们是运营基线。
2026 年,5 级是罕见的。金融服务和医疗保健团队在有约束力的监管下运营是最接近的。大多数其他企业组织位于第 3 级和第 4 级之间,每个轴的差异显着,其中哪些子领域先进,哪些落后。
五轴自我评估确实有帮助
不要将组织按照五个级别作为单个复合数字进行评分,而是在五个轴上独立评分。大多数组织并不统一——它们可能是部署级别 4 和治理级别 2,或者经典 ML 级别 3 和 LLM 操作级别 1。不匹配通常是下一个重大事件的来源,每轴视图将其显示在综合分数隐藏的地方。
- 可重复性 – 您能否在一小时内根据需要从版本化代码和数据重建任何生产模型?根据答案是“对于每个模型是”还是“对于某些模型是”或“否”对轴进行评分。
- 评估 – 您是否有一个在质量回归上失败的回归套件,具有经过校准的法学硕士作为评判指标、记录的故障模式目录以及使评估分布根据实际流量进行校准的生产样本循环?
- 部署——促销是否以评估为门控,金丝雀启动和自动回滚完全自动化,并且有记录的模型交换程序,不需要为期数周的项目?
- 可观察性 – 除了标准基础设施堆栈之外,您是否拥有特定于 ML 的监控(漂移、质量、每次调用成本、延迟 p95 和 p99、每步代理轨迹指标)?产品经理可以在没有工程帮助的情况下了解每个人工智能功能的成本吗?
- 治理——每个系统是否有一个指定的所有者,具有随叫随到的轮换、跨模型和提示变更的审计跟踪,以及按重大变更而不是按季度运行的风险评估流程?
每层最高杠杆升级
对于大多数组织来说,一项特定的投资主导着通往下一个成熟度级别的道路。升级顺序很重要:在不巩固基础的情况下在一个轴上跳到更高的级别会产生脆弱的系统,这些系统会以团队尚未具备诊断能力的方式发生故障。
- 级别 1 → 2。采用单一实验跟踪工具并停止接受笔记本作为部署工件。文化变革是要付出代价的;技术变化很小。
- 级别 2 → 3。构建评估回归套件并将其连接到 CI。没有什么比如此多的下游指标——部署频率、回归检测率、事件平均修复时间(MTTR)都在相同的投资上有所提升。
- 级别 3 → 4。用适当的排队系统替换先到先服务的 GPU 分配,并设置具有自动回滚功能的门控部署。如果没有这两者,扩展人工智能流量会产生运行不稳定,而这是任何模型工程都无法弥补的。
- 级别 4 → 5。添加治理层 - 指定所有者、变更审查、记录的风险评估、审计就绪的证据管道。这是最不令人兴奋的投资,也是最耐审计的投资,也是在可管理的时间内通过监管机构审查的唯一途径。
2026 年现实检验
我们建议到 2026 年的大多数企业组织在经典 ML 上处于 3 级,在 LLM 支持的系统上处于 1-2 级,因为 LLM 运营堆栈较新,并且团队力量仍在形成。这种不匹配是正常的,也是目前最大的风险承担者,因为法学硕士工作量是声誉和监管风险最高的地方。在 3 级平台之上运行的 2 级 LLM 操作所产生的结果正是以头版新闻事件的形式出现的那种无声回归。
对于大多数中型企业人工智能组织来说,缩小这一特定差距——使法学硕士运营能力达到与传统机器学习相同的成熟度——是 2026 年投资回报率最高的单一基础设施投资。本网站的其余部分概述了投资项目:评估套件、系统提示规则、数据合同、人工智能工作负载的 FinOps、GPU 调度和监管文档管道。这个成熟度模型是排序指南;每个单独的领域都有自己更深入的剧本。
到 2026 年,在传统 ML 和 LLM 运营中达到 4 级的组织将运营 AI 产品,其事故率将大幅降低,迭代周期将加快,并为 2026 年至 2027 年收紧的监管环境做好审计准备。保持 LLM 2 级的组织将继续承担 4 级同行所不承担的运营和声誉成本。
区分实践中级别的运营指标
自我评估的一个有用捷径是:跟踪六个运营指标,这些指标能够始终区分高成熟度和低成熟度的人工智能运营。
- 部署频率。 2 级每周发货; 3 级每周发货数次; 4 级可按需发货,配备自动门。节奏趋势是平台成熟度最明显的单一信号。
- 模型更改的准备时间。从“我们想要重新培训”到“改变正在生产中”。 2 级以周为单位衡量; 4 级以小时为单位。
- 改变失败率。在生产中产生可衡量的质量回归的部署百分比。 3 级位于 15-25% 范围内; 4 级下降到 10% 以下,因为评估门更早地捕捉到回归。
- 平均恢复时间。从事件检测到补救。 2 级位于数小时范围内;对于常见的回归模式,具有自动回滚功能的级别 4 下降到不到一小时。
- 每个人工智能功能的成本。能够对每个产品功能的支出进行归因,而不是按平台进行汇总。成熟度较高的组织会向产品经理公开此指标;成熟度较低的组织根本无法回答这个问题。
- 审计准备证据响应时间。从“监管机构询问该系统如何做出决策”到“我们可以展示文档”。 2 级需要数周时间; 5 级需要几个小时,因为文档是从管道生成的,这是一个副作用。
常见问题
运行此自我评估的平台和工程领导者提出的常见问题:
- 如何将经典 ML 与 LLM 操作分开评分?运行五轴评估两次——一次针对经典 ML 侧,一次针对 LLM 侧。大多数组织发现两者之间有 1-2 级差距,而这个差距就是优先工作。
- 对于非监管企业来说,5 级现实吗? 5级的技术组件是可以实现的;对于没有监管风险的组织来说,治理开销可能不合理。 4 级与选定的 5 级组件(指定所有者、审计就绪文档)是大多数中型企业的最佳运营点。
- 升一级需要多长时间?从 2 级到 3 级大约需要 6-9 个月,从 3 级到 4 级大约需要 6-12 个月,从 4 级到 5 级大约需要 12-18 个月以上。文化和组织工作在技术工作之外占据主导地位。
- 我应该首先优先考虑哪个轴?无论哪个轴最有可能是下一次生产事故的根源。对于 2026 年的大多数组织来说,这就是 LLM 运营评估轴——这就是为什么“构建评估回归套件”是最常见的 2 → 3 级升级。
- 这与我们的 DevOps 成熟度如何相互作用?强烈。更高的 DevOps 成熟度(CI/CD 规则、可观察性基础设施、事件响应节奏)通过提供基础直接提升 MLOps 成熟度。 DevOps 薄弱的组织无法持久达到较高的 MLOps 水平;必须首先进行基础工作。


