2026 年本地 GPU 与云 GPU:经济状况已悄然发生变化

Frontier-GPU 供应已正常化。 GPU 即服务的利润已经压缩。五年来第一次,对于某些企业工作负载来说,拥有芯片是真正明智的默认选择。本指南详细介绍了盈亏平衡算术(其中每一层仍然明显获胜)、专用容量中间立场、区分廉价报价和诚实成本的全面 TCO 模型,以及 2026 年的采购策略。

14 min read
服务器硬件特写 – 代表 2026 年企业 AI 工作负载的本地 GPU 机架与云 GPU 经济性

没有人宣布这一转变

在 GPU 紧缩的最初几年(大约 2022 年至 2024 年),企业 AI 计算的经济效益非常简单。最新的数据中心 GPU 无法以标价购买,交货时间延长到多个季度,从超大规模企业租用容量(即使是溢价)是按照大多数董事会预期的时间表运送人工智能工作负载的唯一途径。每个企业财务模型都假设“云 GPU 是基准,因为没有其他选择”。

这一假设在 2025 年中期不再正确。数据中心-GPU 供应在主要硬件代中实现标准化。下一代 GPU 出货量扩大。随着专业提供商进入市场,GPU 即服务的定价受到压缩,并给超大规模厂商的利润带来压力。企业采购团队开始在同月而不是同季度收到报价。这场危机悄然结束,“云 GPU 永远是正确答案”的财务模型默认值不再自动成立。

现在,对于任何具有稳定或可预测计算需求的人工智能工作负载,微积分都值得实际运行。到 2026 年,要想在企业工作负载中占据有意义的份额,拥有 GPU 或与专家签订专用容量合同将远远领先于按需超大规模商用。接下来的框架将介绍盈亏平衡算术(其中每一层仍然明显获胜)、2022 年不存在的专业中间立场、区分廉价报价和实际成本的诚实 TCO 模型,以及抢在竞争对手之前捕捉到转变的采购策略。

整数的盈亏平衡算术

旗舰数据中心 GPU 的标价在 25,000 美元至 35,000 美元之间;完全配置的 8 路 GPU 系统的价格在 25 万美元到 40 万美元之间,具体取决于配置、网络和支持。与此同时,到 2026 年,主要超大规模提供商上类似 8-GPU 实例的按需定价大约为每小时 30-40 美元,1-3 年保留定价在每小时 15-25 美元范围内,具体取决于承诺长度。

70% 持续利用率的算术(可以通过适当的调度实现 - 兄弟文章中详细介绍的 Kubernetes 调度规则是产生此数字的原因):8,760 小时 × 0.70 × 20 美元/小时 ≈ 每年 123,000 美元的预留云成本。假设标准数据中心电力和冷却开销在硬件摊销之外再增加 30-40%,一个价值 30 万美元的系统仅在计算成本上就能在大约 24 个月内实现收支平衡。

对于具有记录的持续使用的连续工作负载,数学铅笔。对于 80% 时间处于闲置状态的突发性工作负载,云计算仍然便宜很多。这个交叉点——大约 30-40% 的利用率——是 2026 年大多数采购决策所依赖的唯一数字。其下,云。在它之上,拥有或专用。这不是激进的数学;而是简单的数学。这与算术组织数十年来在非人工智能基础设施上使用的 TCO 相同。它只是在紧要关头停止了申请,然后悄悄地再次开始申请。

显然,云仍将获胜

到 2026 年,三种工作负载形状仍然决定性地倾向于云,并且云溢价由运营属性证明是合理的:

  • 突发实验。研发团队偶尔会执行大型作业,利用率在 5-20% 范围内。为此,拥有硅会造成流动性下降和折旧问题;按需云无需投入资本即可捕获爆发。
  • 需要最新芯片的工作负载。如果工作负载仅集中在最新一代 GPU 上,并且组织不会在自己的采购周期内再订购 12-18 个月的硬件,那么云会获得资本采购无法比拟的上市时间优势。
  • 需要多区域故障转移的工作负载。跨多个区域部署自有容量以进行灾难恢复,可以有效地重建超大规模经济,而无需超大规模运营纪律。除非组织拥有全球运营足迹来对其进行良好管理,否则云多区域是正确的答案。
  • 真正不可预测的需求。团队无法以 30-50% 的准确度预测 12 个月后利用率的工作负载。过度配置自有容量的成本超过了云溢价;供应不足所产生的运营事件成本超过了云节省的成本。

拥有或专注的地方显然会获胜

同样,到 2026 年,一组明确的工作负载将决定性地倾向于自有或专用容量:

  • 大规模的可预测推理。具有稳定流量和严格延迟要求的推理工作负载在专用硬件上运行最佳 - 可预测的成本、可预测的尾部延迟、无噪声邻居干扰。这是 2026 年从超大规模迁移到专用容量的最大单一工作负载类别。
  • 持续开展培训活动。持续进行培训或微调(通常每周或每天)的组织很容易跨越利用率阈值。一旦团队对持续利用预测有信心,持续训练的算术就会有利于自有能力。
  • 数据驻留受限的工作负载。将推理保留在组织范围内所带来的合规性简化通常比计算成本差异更有价值。欧盟人工智能法案条款、亚太地区个人数据保护制度以及特定部门的健康和金融监管都推动内部部署成为监管摩擦最小的途径。
  • 专有模型的高价值微调。当团队迭代专有模型变体时,数据敏感性、知识产权保护和成本可预测性的结合会将采购答案推向自有或专用容量。
  • 长期运行的生产型人工智能服务,具有稳定的用户行为。成功的人工智能产品发布后的稳定状态通常位于 50-80% 的利用率范围内,远高于交叉阈值。发布是在云端进行的;稳态是拥有的或专用的。

2022 年不存在的专用产能中间立场

2026 年真正有趣的类别并不是“云与自有”的二元对立。这是“云与专用云与自有云”作为三层选择。现在,一大批专业 GPU 云提供商以比超大规模提供商低得多的价格提供专用 GPU 容量,通常会提供 1-12 个月的承诺,而不是超大规模提供商为实现最佳定价而要求的 1-3 年预订。

2026 年适用于企业 AI 实践的模式:用于长尾实验和尖峰工作负载的超大规模器;专门提供大规模持续训练或推理的专业提供商;完全可预测、合规性受限的核心拥有的容量。三层结构在总成本和弹性方面始终优于任何单一提供商策略——如果编排层(Kubernetes、批处理调度程序、Ray)在提供商之间正确抽象,那么操作起来并不会明显更复杂。

不同层级的谈判动态各不相同。超大规模的定价已公开且可轻松协商;专业提供商的定价可以根据承诺期限和数量进行有意义的协商;自有硬件的定价可以根据企业与供应商的关系和订单规模进行大量协商。将这三种方式视为同一谈判类型的采购团队可以节省材料。

诚实的 TCO 模型是什么样的

运行此计算时最常见的错误是比较原始 GPU 小时价格并就此停止。诚实的比较包括更多行,而被跳过的行通常是改变答案的行。

  • 计算。 GPU 小时成本、摊销硬件(通常为 3-5 年折旧)、预留定价等级、承诺折扣以及增加或减少期间未使用容量的成本。
  • 联网。超大规模的出口成本(对于移动训练数据或模型权重的 AI 工作负载来说通常很大)、VPC 对等成本、自有设备上的高带宽互连结构的成本以及跨区域复制的成本。
  • 贮存。高性能训练存储对于超大规模企业来说非常昂贵,并且在并排比较中经常被低估。拥有的高性能存储也需要大量的资本和运营成本;比较必须在同等性能​​等级上进行。
  • 电源和冷却。通常,除自有设备的硬件摊销外,还有 30-50% 的费用,云的零直达费用(成本包含在小时费率中,通常是不可见的)。对于最大的自有部署,数据中心的位置很重要——主要市场的电力成本相差 3-5 倍。
  • 操作和待命。随叫随到的自有容量是真正的工作,需要花费真正的金钱;对于云来说,这通常是提供商的问题,直到它不是(如果不是,问题可能是重大的)。运营成本必须按照等效 FTE 进行建模,而不是跳过。
  • 交货时间风险和产能风险。如果工作负载在战略上至关重要,那么容量风险就会带来真正的业务成本。云通常在这个轴上获胜;拥有长期合同的专家缩小了差距;拥有的硬件将团队锁定在采购周期的约束中。
  • 技术更新和过时风险。自有 GPU 硬件的折旧速度比典型数据中心设备更快,因为底层技术每 18-24 个月就会更新一次。摊销计划应反映现实的更新预期,而不是假设硬件将在 5 年窗口内保持价值。

2026 年采购手册

适合大多数企业环境的具体顺序:

  • 将工作负载组合分为三个部分。突发(利用率低于 30%)、持续(利用率 30-70%)和持续饱和(利用率 70%+)。存储桶分配直接驱动层推荐。
  • 根据诚实的 TCO,根据所有三个级别对每个桶进行定价。超大规模按需定价和预留定价、具有现实承诺条款的专用专业提供商定价,以及具有完整 TCO 的自有硬件资本成本,包括电力、冷却、运营和刷新。
  • 并行运行两个采购 RFI。一种用于专业专用容量,一种用于自有硬件,两者都与新的超大规模定价对话一起运行。三层之间的竞争紧张是产生有利条件的原因;按顺序运行它们会使杠杆未被使用。
  • 从桶分配而不是从现任者那里进行谈判。 2026 年的杠杆作用是结构性的:工作负载范围决定工作负载应位于哪一层。将谈判锚定在桶上而不是现有的供应商上可以产生更好的结果。
  • 构建允许工作负载跨层移动的抽象层。 Kubernetes 具有适当的调度、基于容器的部署和基础设施即代码,使层可移植性成为现实。如果没有抽象,采购答案就会受到运营锁定的影响。
  • 每年进行一次采购决策。 GPU 市场的发展速度足够快,以至于最佳层组合每年都会发生变化。锁定错误层级的 3 年承诺是 2026 年人工智能基础设施的最大采购风险。

大多数企业仍在犯的结构性错误

仅在 2026 年与现有超大规模提供商进行谈判的组织将无法了解市场变化了多少。专业提供商知道他们渴望工作量;超大规模企业知道专家的存​​在,并已将他们的建议纳入考虑范围;自有硬件供应商知道,替代方案是以更高的 TCO 进行超大规模更新。

在 2022 年至 2024 年的危机期间,云提供商的谈判筹码已大幅减弱。运行良好的 2026 年人工智能计算采购与大多数企业组织在没有意识到市场变化的情况下签署的采购之间的差距是今年人工智能基础设施损益表上最大的单一机会。节省成本不是一个研究项目;而是一个研究项目。它正在运行市场现在支持的采购流程。

常见问题

基础设施领导者在评估 2026 年 GPU 采购策略时提出的常见问题:

  • 我如何在自有专家和专职专家之间做出选择?适用于具有 5 年以上期限和 60% 以上持续利用率的工作负载。专门处理 1-3 年范围内、利用率为 40-70% 的工作负载的专家。适用于以下所有内容的超大规模器。
  • 自有 GPU 硬件的实际采购时间表是怎样的?截至 2026 年,标准配置的交付时间为 8 至 16 周,低于高峰时期的 6 至 12 个月。与硬件供应商的长期合同可以进一步压缩这一点。
  • 如何在操作上处理多层编排? Kubernetes 加上一个可跨底层基础设施(Kueue、Volcano)移植的调度程序,以及用于每个提供商配置的基础设施即代码。抽象层是使多层策略可持续运行的技术基础。
  • 二手GPU市场又如何呢?随着企业升级,上一代 GPU 的二手市场在 2024 年至 2026 年期间将大幅增长。对于不需要最新一代的持续工作负载,二手设备比新设备可以节省 50-70% 的成本。权衡是硬件保修和额外的操作风险。
  • 这仍然移动得有多快?硬件生成周期大约每 18-24 个月一次。定价动态变化得更快——超大规模和专业定价的季度变化已成为 2024 年至 2026 年的模式。年度采购审核对于大多数企业来说是正确的节奏;最大的部署可能需要每季度进行审查。
Infrastructure Service

Need the platform layer to make this stick in production? Our Hanoi-based infrastructure team delivers DevOps, FinOps, SecOps, and AI/MLOps for enterprises on AWS, GCP, Azure, and on-premise.

携手打造 下一个里程碑

告诉我们您的挑战 – AI、数据或基础设施。我们将为项目梳理范围,并为您配置合适的团队。