Question 1

我们需要在 Kubernetes 上运行 AI/MLOps 吗？

Accepted Answer

不。 Kubernetes 是多租户模型服务、GPU 调度和混合边缘/云拓扑的正确工具，但 AWS Lambda、Google Cloud Run、Azure Container Apps 或托管 SageMaker/Vertex AI/Azure ML 端点上的单个推理端点通常更简单、更便宜。我们默认使用适合工作负载的最轻的基础设施，并且只有在达到其复杂性时才使用 Kubernetes。

Question 2

AI/MLOps 可以与我们现有的数据湖和特征存储一起使用吗？

Accepted Answer

是的。生产活动在数据方面与 Databricks、Snowflake、BigQuery 和 Redshift 集成，在功能方面与 Feast、Tecton、Hopsworks 或内部功能存储集成。我们构建您已经运营的数据平台；我们建议仅当它成为模型生命周期工作的真正瓶颈时才将其更换。

Question 3

AI/MLOps 如何处理 LLM 和生成式 AI 工作负载？

Accepted Answer

具有不同原语的相同操作模型。管道形状变为：提示和检索源控制、评估集驱动的回归测试、结构化输出和工具使用验证、请求和成本可观察性、用于成本控制的提示缓存和路由以及安全/护栏监控。我们已在 AWS Bedrock、Vertex AI 和自管理推理堆栈上为 RAG 系统、代理工作流程和微调域 LLM 提供了此模式。

Question 4

在您的参与中，AI/MLOps 和 DevOps 之间有什么区别？

Accepted Answer

DevOps 将应用程序代码从提交转移到生产。 AI/MLOps 将模型从笔记本转移到生产环境，并额外关注数据版本控制、实验跟踪、模型注册、自动评估、漂移监控和再培训工作流程。在生产中运行机器学习的团队通常需要两者。当范围有意义时，我们将它们作为一个集成平台提供，或者作为共享底层工具层的相邻程序提供。

机器学习经得起考验
生产中

AI/MLOps 是工程学科围绕生产机器学习

完整的
AI/MLOps 项目

模型部署管道

数据、代码和模型的版本控制

特征工程和特征存储

模型监控和可观察性

再培训工作流程

可扩展的推理基础设施

AI/MLOps 通常
产生影响的地方

团队为何与我们合作

ML 工程师和平台工程师在一个团队中

供应商中立的架构

专为长期发展而打造

注重结果

您将获得什么

常见问题

我们需要在 Kubernetes 上运行 AI/MLOps 吗？

AI/MLOps 可以与我们现有的数据湖和特征存储一起使用吗？

AI/MLOps 如何处理 LLM 和生成式 AI 工作负载？

在您的参与中，AI/MLOps 和 DevOps 之间有什么区别？

携手打造下一个里程碑

机器学习经得起考验生产中

AI/MLOps 是工程学科 围绕生产机器学习

完整的AI/MLOps 项目

模型部署管道

数据、代码和模型的版本控制

特征工程和特征存储

模型监控和可观察性

再培训工作流程

可扩展的推理基础设施

AI/MLOps 通常产生影响的地方

团队为何与我们合作

ML 工程师和平台工程师在一个团队中

供应商中立的架构

专为长期发展而打造

注重结果

您将获得什么

常见问题

我们需要在 Kubernetes 上运行 AI/MLOps 吗？

AI/MLOps 可以与我们现有的数据湖和特征存储一起使用吗？

AI/MLOps 如何处理 LLM 和生成式 AI 工作负载？

在您的参与中，AI/MLOps 和 DevOps 之间有什么区别？

携手打造 下一个里程碑

机器学习经得起考验
生产中

AI/MLOps 是工程学科围绕生产机器学习

完整的
AI/MLOps 项目

AI/MLOps 通常
产生影响的地方

携手打造下一个里程碑