← 首页

AI 专题

AI 的瓶颈正在从模型能力转向资本开支和推理经济学

大模型竞争已经进入基础设施阶段:GPU、数据中心、电力、折旧、推理成本和云端利用率,正在决定 AI 商业化的真实边界。

AI 数据中心资本开支、GPU 集群、电力和推理成本的经济结构图

过去几年,AI 竞争主要被描述成模型能力竞争:参数、上下文长度、推理能力、代码能力、多模态、Agent。这个叙事仍然重要,但已经不够。到 2026 年,AI 的关键瓶颈正在从“模型能不能做”转向“能不能以足够低的成本、足够稳定的延迟、足够高的利用率大规模提供”。

模型能力决定产品上限,资本开支和推理经济学决定商业下限。如果每一次回答、每一次图片生成、每一次代码补全和每一次 Agent 调用都要消耗昂贵算力,那么 AI 公司最终比拼的不是演示效果,而是单位任务成本、毛利率、数据中心交付速度和需求预测能力。

AI 的下一阶段不是谁能训练出更大的模型,而是谁能把模型变成可承受、可调度、可计费、可持续的工业服务。

这篇文章的出发点,是我不再只把 AI 看成模型能力问题。几个云厂商的财报放在一起以后,矛盾变得很清楚:AI 已经有真实需求,但满足这些需求需要提前建设昂贵产能。真正的问题不是“有没有人用 AI”,而是收入增长能不能覆盖资本开支、折旧和推理成本。

矛盾不在收入,而在现金流

几个云厂商的财报给出的不是一个单点结论,而是三种信号。微软 FY26 Q3,也就是截至 2026 年 3 月 31 日的季度,AI 业务年化收入运行率已经超过 370 亿美元,说明需求不是概念。Meta 在 2026 年一季度 把全年资本开支预期上调到 1250 亿至 1450 亿美元,说明供给端需要提前重投入。Amazon 2026 年一季度 的过去 12 个月自由现金流降至 12 亿美元,主要压力来自物业和设备采购大幅增加,说明增长会先反映为现金流压力。

这三个数字放在一起,比单独看任何一家都更有意义:AI 收入在起来,基础设施账单也在同时变大,而且现金流先被建设周期吃掉。它说明 AI 已经不是轻资产软件周期,而是云、芯片、电力、土地、冷却、网络和折旧共同驱动的重资产周期。

我的判断是:这不是一个简单的 AI 泡沫,更像电网、云计算和半导体制造叠在一起的基础设施扩张。但这也不意味着所有资本开支都是合理的。基础设施周期最危险的地方,恰恰是长期方向正确,短期产能却可能建错、建贵、建早。

训练是门票,推理才是日常成本

训练大模型很贵,但训练不是每天发生在每个用户身上的成本。推理不同。每一次用户调用模型、每一次搜索改写、每一次广告生成、每一次客服回复、每一次代码建议,都会消耗推理算力。产品越成功,推理成本越大。

这使 AI 商业化和传统 SaaS 很不一样。传统软件的边际成本通常很低,新增用户主要消耗带宽、存储和支持。AI 产品的边际成本更硬:token、显存、GPU 时间、网络通信、电力、冷却和调度损耗都会进入成本结构。用户活跃度越高,成本越真实。

所以 AI 产品不能只看用户数和订阅收入。更关键的是每个用户的计算强度、每个任务的模型选择、缓存命中率、上下文长度、延迟要求和是否需要工具调用。一个高频低付费用户可能比低频企业用户更消耗利润。

可以把账算得更朴素一点。一个月费固定的 AI 产品,如果用户只是偶尔提问,成本像软件;如果用户每天让它读长文档、写代码、跑 Agent、调用工具、反复生成和修改,成本就更像云服务。收入端是一条相对平的订阅线,成本端却跟使用强度一起上升。这个错位解释了为什么“活跃用户增长”在 AI 产品里不是天然好消息,必须同时看每次任务的平均收入、平均推理成本和峰值容量占用。

模型路由会成为毛利率工具

未来成熟的 AI 产品不会把所有请求都交给最大模型。它会像交易系统管理订单一样管理请求:简单任务走小模型,复杂任务走大模型;低价值请求降低上下文和推理深度,高价值请求才使用昂贵路径;可缓存结果不重复计算;批处理任务避开高峰;延迟不敏感任务使用更便宜的队列。

这就是模型路由的经济意义。它不是工程优化的细枝末节,而是毛利率工具。公司能否把任务拆分、分级、缓存、压缩和路由,决定同样的收入能留下多少利润。

推理成本优化会覆盖多个层面:模型蒸馏、量化、稀疏化、KV cache、speculative decoding、批处理、低精度计算、专用推理芯片、边缘部署、上下文裁剪和工具调用控制。每一项看起来都是技术细节,合起来就是商业模式。

数据中心交付速度变成竞争优势

AI 公司过去争论文献和 benchmark,现在还要争电力、机柜、GPU、网络、冷却和数据中心选址。谁能更快把资本开支转化为可用算力,谁就能更快训练模型、承接客户、降低排队时间和提高服务稳定性。

这也是 Nvidia 把产品从单卡推向整机柜、网络和软件平台的原因。客户买的不是一颗芯片,而是可部署的计算产能。GPU 性能重要,但集群稳定性、互连效率、故障恢复、驱动成熟度和供应链交付同样重要。

资本开支的难点在于不可逆。数据中心和 GPU 集群需要提前建设,但需求、模型效率、芯片代际和竞争格局都在快速变化。建少了会错过需求,建多了会拖累折旧和现金流。AI 云厂商本质上在做产能期货。

折旧会进入 AI 产品定价

AI 基础设施不是一次性费用。GPU、服务器、网络设备、数据中心、供电系统和冷却系统都会折旧。随着资本开支上升,折旧会逐渐进入利润表,压低短期利润率,并迫使公司提高利用率。

这意味着 AI 产品定价不能长期靠补贴。免费额度、低价套餐和无限使用叙事最终会遇到算力账单。企业版、按量计费、token 计费、任务计费、座席加用量混合计费,都会变得更重要。用户会希望预算可预测,供应商则希望成本可转嫁。

AI 产品的理想状态不是“用户越多越好”,而是“高价值任务越多越好”。如果大量使用来自低价值、低付费、难变现的请求,规模会放大亏损。真正健康的增长需要把计算分配给愿意支付的工作流。

开源模型改变价格锚

开源和开放权重模型会持续压低基础能力的价格。企业可以在私有云、本地 GPU、租赁算力或多云环境中部署足够好的模型。这会削弱闭源模型对普通任务的定价权,迫使商业模型把优势转向可靠性、工具链、合规、延迟、上下文、数据连接和工作流集成。

但开源不会消除基础设施成本。它只是把成本从 API 账单转移到自建部署、运维、GPU 租赁、工程人员和安全治理。很多企业以为开源便宜,实际会发现便宜的是模型权重,不是稳定服务。

因此,闭源和云厂商的护城河会从“模型更聪明”转向“总拥有成本更低”。如果托管服务能提供更好的可靠性、合规、扩展性和成本可预测性,企业仍会购买。反过来,如果 API 价格高、延迟不稳、数据边界不清,开源替代会加速。

投资者要看现金转化,而不是只看 AI 叙事

AI 收入增长很重要,但更重要的是现金转化。资本开支、融资租赁、折旧、能源成本、GPU 更新周期、利用率和客户合约期限,会决定收入能否变成自由现金流。

一个简单框架是看四个指标。第一,AI 相关收入增长是否快于资本开支增长。第二,云端利用率是否提高,而不是只靠购买更多 GPU 推动收入。第三,推理成本是否随模型效率下降。第四,客户是否签长期合约,还是需求主要来自短期试验。

如果这些指标改善,AI 基础设施投资可以形成规模经济;如果没有改善,资本开支会变成利润率压力。最危险的不是 AI 没有需求,而是需求真实存在但单位经济性不够好。

失败路径也很清楚:云厂商提前建设了太多产能,但企业客户的 AI 预算释放慢于折旧;推理价格因为竞争和开源替代持续下行,但高质量服务的算力消耗没有同步下降;用户需求很旺,却集中在低价值、低付费、难提价的场景。到那时,行业不会表现为“AI 没人用”,而会表现为“AI 很多人用,但供应商赚不到足够的钱”。

如果我这个判断错了,最可能错在两件事上。第一,推理成本下降速度远超预期,模型压缩、芯片迭代和调度优化把单位任务成本打到足够低,资本开支压力被快速摊薄。第二,需求弹性比现在看到的更强,便宜推理反而带来更多新场景,让数据中心利用率迅速填满。那样的话,今天看起来激进的 AI capex,会更像云计算早期的提前铺路,而不是资本纪律失控。

AI 已经进入工业化阶段

第一阶段的 AI 竞争看模型能力,第二阶段看产品体验,第三阶段看基础设施经济学。现在三者同时存在,但权重正在变化。模型仍然重要,可是单纯更大的模型不再自动等于更好的业务。

未来赢家需要同时回答三个问题:能不能训练出足够强的模型,能不能把模型嵌入高价值工作流,能不能用可接受的资本开支和推理成本提供服务。缺任何一个,AI 叙事都会被财务报表重新定价。

这也是接下来几年 AI 行业最容易被低估的变化:市场不会只奖励“更聪明”,而会越来越严格地奖励“更便宜地聪明”。模型能力仍会制造故事,现金流会决定故事能讲多久。

AI 不是软件行业变轻,而是软件行业吸收了能源、芯片、地产和制造业的资本强度。真正的分水岭不会出现在发布会上的 demo 里,而会出现在每一次推理调用的成本、每一座数据中心的利用率和每一张利润表的折旧项里。