AI 专题

AI 的瓶颈正在从模型能力转向资本开支和推理经济学

大模型竞争已经进入基础设施阶段：GPU、数据中心、电力、折旧、推理成本和云端利用率，正在决定 AI 商业化的真实边界。

2026年5月3日 7 分钟阅读

过去几年，AI 竞争主要被描述成模型能力竞争：参数、上下文长度、推理能力、代码能力、多模态、Agent。这个叙事仍然重要，但已经不够。到 2026 年，AI 的关键瓶颈正在从“模型能不能做”转向“能不能以足够低的成本、足够稳定的延迟、足够高的利用率大规模提供”。

模型能力决定产品上限，资本开支和推理经济学决定商业下限。如果每一次回答、每一次图片生成、每一次代码补全和每一次 Agent 调用都要消耗昂贵算力，那么 AI 公司最终比拼的不是演示效果，而是单位任务成本、毛利率、数据中心交付速度和需求预测能力。

AI 的下一阶段不是谁能训练出更大的模型，而是谁能把模型变成可承受、可调度、可计费、可持续的工业服务。

这篇文章的出发点，是我不再只把 AI 看成模型能力问题。几个云厂商的财报放在一起以后，矛盾变得很清楚：AI 已经有真实需求，但满足这些需求需要提前建设昂贵产能。真正的问题不是“有没有人用 AI”，而是收入增长能不能覆盖资本开支、折旧和推理成本。

矛盾不在收入，而在现金流

几个云厂商的财报给出的不是一个单点结论，而是三种信号。微软 FY26 Q3，也就是截至 2026 年 3 月 31 日的季度，AI 业务年化收入运行率已经超过 370 亿美元，说明需求不是概念。Meta 在 2026 年一季度把全年资本开支预期上调到 1250 亿至 1450 亿美元，说明供给端需要提前重投入。Amazon 2026 年一季度的过去 12 个月自由现金流降至 12 亿美元，主要压力来自物业和设备采购大幅增加，说明增长会先反映为现金流压力。

这三个数字放在一起，比单独看任何一家都更有意义：AI 收入在起来，基础设施账单也在同时变大，而且现金流先被建设周期吃掉。它说明 AI 已经不是轻资产软件周期，而是云、芯片、电力、土地、冷却、网络和折旧共同驱动的重资产周期。

我的判断是：这不是一个简单的 AI 泡沫，更像电网、云计算和半导体制造叠在一起的基础设施扩张。但这也不意味着所有资本开支都是合理的。基础设施周期最危险的地方，恰恰是长期方向正确，短期产能却可能建错、建贵、建早。

训练是门票，推理才是日常成本

训练大模型很贵，但训练不是每天发生在每个用户身上的成本。推理不同。每一次用户调用模型、每一次搜索改写、每一次广告生成、每一次客服回复、每一次代码建议，都会消耗推理算力。产品越成功，推理成本越大。

这使 AI 商业化和传统 SaaS 很不一样。传统软件的边际成本通常很低，新增用户主要消耗带宽、存储和支持。AI 产品的边际成本更硬：token、显存、GPU 时间、网络通信、电力、冷却和调度损耗都会进入成本结构。用户活跃度越高，成本越真实。

所以 AI 产品不能只看用户数和订阅收入。更关键的是每个用户的计算强度、每个任务的模型选择、缓存命中率、上下文长度、延迟要求和是否需要工具调用。一个高频低付费用户可能比低频企业用户更消耗利润。

可以把账算得更朴素一点。一个月费固定的 AI 产品，如果用户只是偶尔提问，成本像软件；如果用户每天让它读长文档、写代码、跑 Agent、调用工具、反复生成和修改，成本就更像云服务。收入端是一条相对平的订阅线，成本端却跟使用强度一起上升。这个错位解释了为什么“活跃用户增长”在 AI 产品里不是天然好消息，必须同时看每次任务的平均收入、平均推理成本和峰值容量占用。

模型路由会成为毛利率工具

未来成熟的 AI 产品不会把所有请求都交给最大模型。它会像交易系统管理订单一样管理请求：简单任务走小模型，复杂任务走大模型；低价值请求降低上下文和推理深度，高价值请求才使用昂贵路径；可缓存结果不重复计算；批处理任务避开高峰；延迟不敏感任务使用更便宜的队列。

这就是模型路由的经济意义。它不是工程优化的细枝末节，而是毛利率工具。公司能否把任务拆分、分级、缓存、压缩和路由，决定同样的收入能留下多少利润。

推理成本优化会覆盖多个层面：模型蒸馏、量化、稀疏化、KV cache、speculative decoding、批处理、低精度计算、专用推理芯片、边缘部署、上下文裁剪和工具调用控制。每一项看起来都是技术细节，合起来就是商业模式。

数据中心交付速度变成竞争优势

AI 公司过去争论文献和 benchmark，现在还要争电力、机柜、GPU、网络、冷却和数据中心选址。谁能更快把资本开支转化为可用算力，谁就能更快训练模型、承接客户、降低排队时间和提高服务稳定性。

这也是 Nvidia 把产品从单卡推向整机柜、网络和软件平台的原因。客户买的不是一颗芯片，而是可部署的计算产能。GPU 性能重要，但集群稳定性、互连效率、故障恢复、驱动成熟度和供应链交付同样重要。

资本开支的难点在于不可逆。数据中心和 GPU 集群需要提前建设，但需求、模型效率、芯片代际和竞争格局都在快速变化。建少了会错过需求，建多了会拖累折旧和现金流。AI 云厂商本质上在做产能期货。

折旧会进入 AI 产品定价

AI 基础设施不是一次性费用。GPU、服务器、网络设备、数据中心、供电系统和冷却系统都会折旧。随着资本开支上升，折旧会逐渐进入利润表，压低短期利润率，并迫使公司提高利用率。

这意味着 AI 产品定价不能长期靠补贴。免费额度、低价套餐和无限使用叙事最终会遇到算力账单。企业版、按量计费、token 计费、任务计费、座席加用量混合计费，都会变得更重要。用户会希望预算可预测，供应商则希望成本可转嫁。

AI 产品的理想状态不是“用户越多越好”，而是“高价值任务越多越好”。如果大量使用来自低价值、低付费、难变现的请求，规模会放大亏损。真正健康的增长需要把计算分配给愿意支付的工作流。

开源模型改变价格锚

开源和开放权重模型会持续压低基础能力的价格。企业可以在私有云、本地 GPU、租赁算力或多云环境中部署足够好的模型。这会削弱闭源模型对普通任务的定价权，迫使商业模型把优势转向可靠性、工具链、合规、延迟、上下文、数据连接和工作流集成。

但开源不会消除基础设施成本。它只是把成本从 API 账单转移到自建部署、运维、GPU 租赁、工程人员和安全治理。很多企业以为开源便宜，实际会发现便宜的是模型权重，不是稳定服务。

因此，闭源和云厂商的护城河会从“模型更聪明”转向“总拥有成本更低”。如果托管服务能提供更好的可靠性、合规、扩展性和成本可预测性，企业仍会购买。反过来，如果 API 价格高、延迟不稳、数据边界不清，开源替代会加速。

投资者要看现金转化，而不是只看 AI 叙事

AI 收入增长很重要，但更重要的是现金转化。资本开支、融资租赁、折旧、能源成本、GPU 更新周期、利用率和客户合约期限，会决定收入能否变成自由现金流。

一个简单框架是看四个指标。第一，AI 相关收入增长是否快于资本开支增长。第二，云端利用率是否提高，而不是只靠购买更多 GPU 推动收入。第三，推理成本是否随模型效率下降。第四，客户是否签长期合约，还是需求主要来自短期试验。

如果这些指标改善，AI 基础设施投资可以形成规模经济；如果没有改善，资本开支会变成利润率压力。最危险的不是 AI 没有需求，而是需求真实存在但单位经济性不够好。

失败路径也很清楚：云厂商提前建设了太多产能，但企业客户的 AI 预算释放慢于折旧；推理价格因为竞争和开源替代持续下行，但高质量服务的算力消耗没有同步下降；用户需求很旺，却集中在低价值、低付费、难提价的场景。到那时，行业不会表现为“AI 没人用”，而会表现为“AI 很多人用，但供应商赚不到足够的钱”。

如果我这个判断错了，最可能错在两件事上。第一，推理成本下降速度远超预期，模型压缩、芯片迭代和调度优化把单位任务成本打到足够低，资本开支压力被快速摊薄。第二，需求弹性比现在看到的更强，便宜推理反而带来更多新场景，让数据中心利用率迅速填满。那样的话，今天看起来激进的 AI capex，会更像云计算早期的提前铺路，而不是资本纪律失控。

AI 已经进入工业化阶段

第一阶段的 AI 竞争看模型能力，第二阶段看产品体验，第三阶段看基础设施经济学。现在三者同时存在，但权重正在变化。模型仍然重要，可是单纯更大的模型不再自动等于更好的业务。

未来赢家需要同时回答三个问题：能不能训练出足够强的模型，能不能把模型嵌入高价值工作流，能不能用可接受的资本开支和推理成本提供服务。缺任何一个，AI 叙事都会被财务报表重新定价。

这也是接下来几年 AI 行业最容易被低估的变化：市场不会只奖励“更聪明”，而会越来越严格地奖励“更便宜地聪明”。模型能力仍会制造故事，现金流会决定故事能讲多久。

AI 不是软件行业变轻，而是软件行业吸收了能源、芯片、地产和制造业的资本强度。真正的分水岭不会出现在发布会上的 demo 里，而会出现在每一次推理调用的成本、每一座数据中心的利用率和每一张利润表的折旧项里。