黄仁勋讲了什么②：算力需求两年涨了一百万倍

黄仁勋在台上说了一个数字：过去两年，AI 的算力需求涨了大约一百万倍。

一百万倍。

这个数字第一反应肯定觉得是夸张。英伟达卖 GPU 的，当然希望你觉得需求是无限的。但他花了很长时间在台上拆解这个数字的来源，逻辑链条其实很清晰。而且更关键的——他用这个数字引出了一个概念，叫”推理拐点”。

推理拐点的意思是：AI 行业的主要算力消耗，正在从训练转向推理。 训练是教 AI，推理是让 AI 干活。当 AI 开始真正干活了，算力需求的增长模式就彻底变了。

三件事叠在一起

黄仁勋的拆解是这样的——过去两年发生了三件事情，每一件都大幅推高了算力需求，而且它们是叠加关系。

第一件：ChatGPT 开启了生成式 AI 时代。

AI 过去做的事是检索——你问问题，它从数据库里找最接近的答案给你。现在做的事是生成——它理解你的问题，然后凭理解创造一个回答。

黄仁勋说这个变化比大多数人理解的更深。他用了一个很直白的表述：

生成式 AI 改变了计算的方式。计算过去是基于检索的，现在是生成式的。

他让观众”记住这个概念”——因为后面他在讲 AI 工厂、讲 Token 经济学的时候，都要回来指向这个基础性的范式转移：计算机做的事从”找到东西”变成了”创造东西”。

第二件：推理模型出现了。

2023 年底到 2024 年，这是一个分水岭。AI 学会了”想一想再回答”。

黄仁勋具体提到了 o1 和 o3 这两个推理模型。他的描述是：

推理让 AI 能反思，让它能自己做计划，把一个它理解不了的问题拆成它能理解的步骤。它能基于研究来校准自己。o1 让生成式 AI 变得可信赖，锚定在事实上。

推理模型改变了什么？改变了 token 的消耗量。

以前你问 ChatGPT 一个问题，它生成几十个 token 就给你答案了。现在推理模型在回答之前，要先”在脑子里”想很多步——分解问题、验证假设、反复推敲。这些”思考过程”每一步都是 token，都要消耗算力。输入的上下文变长了（因为需要更多信息做判断），输出的推理链也变长了。

黄仁勋给了一个量级：推理模型相比普通对话模型，单次任务的计算量大约高了一万倍。

ChatGPT 一出来就爆火了。但推理模型让它真正有了生产力。以前用 ChatGPT 写个邮件、查个信息，觉得”嗯还行”。推理模型出来之后，AI 能做研究、能分析复杂问题、能写出可用的代码了。用户粘性和使用频率因此暴涨。

第三件：Agent 出现了。

黄仁勋专门提到了 Claude Code——他把它称为”第一个 Agent 模型”。

它能读文件、写代码、编译、测试、评估，然后回过头来迭代改进。Cloud Code 彻底改变了软件工程。

然后他说了一组数据：英伟达内部百分之百的软件工程师都在用 AI 编程助手。要么是 Claude Code，要么是 Codex，要么是 Cursor，或者几个同时用。

Agent 的关键变化在于：AI 从”回答问题”变成了”完成任务”。

以前你和 AI 的交互模式是：你问一句，它答一句，一来一回。现在你给它一个目标——“帮我重构这个模块”——它自己拆解任务、读文件、写代码、测试、发现 bug、修复、再测试，可能跑几个小时。整个过程中它在持续消耗算力。

黄仁勋用了一组对比来描述这个变化：

你不再问 AI”什么、在哪、怎么”。你告诉它”创建、执行、构建”。你让它使用工具，读取你的上下文，读文件。它能自主地分解问题、推理、反思。它能解决问题，完成真正的工作。

一万倍 × 一百倍

黄仁勋把这三件事叠在一起算了一笔账。

推理模型让单次任务的计算量涨了大约一万倍。与此同时，使用量涨了大约一百倍——更多人在用，每个人用得更频繁，Agent 还在 24 小时不停地跑。

一万乘以一百，就是一百万倍。

他说这个数字不是精确统计，但描述了所有人的真实体感：

这是我们所有人都感受到的。每一家创业公司都感受到了。OpenAI 感受到了。Anthropic 感受到了。如果他们能得到更多算力，就能生成更多 token，收入就会上升，更多人就能使用，AI 就能变得更聪明。我们现在已经进入了那个正向飞轮。

这段话里有一个微妙的信号。他在说——现在限制 AI 进步的瓶颈，已经从算法和数据，转移到了算力。谁有更多 GPU，谁的 AI 就更聪明，谁就能服务更多用户，谁就能赚更多钱去买更多 GPU。

又是一个飞轮。但跟 CUDA 的飞轮不同——CUDA 那个是 20 年慢慢转起来的，这个是两年之内突然加速到让所有人都跟不上的。

他接着说了一组市场数据：GPU 的现货定价在飙升，你有钱都买不到。英伟达拼命出货，需求还是在加速增长。

训练 vs 推理：两个完全不同的增长模式

黄仁勋用了一个很清晰的框架来解释”推理拐点”。

以前 AI 行业的核心工作是训练。用海量数据和海量算力把模型训练出来——这个过程很贵，但它是阶段性的。你训练完一个模型，它可以服务很长时间。算力需求是”脉冲式”的：训练的时候吃满所有 GPU，训练完了算力就释放出来了。

推理完全不同。AI 每次思考、每次回答、每次执行任务，都在消耗推理算力。而且推理是持续性的——24 小时不间断。每多一个用户，每多一个 Agent，就多一份持续的算力消耗。

他的原话：

AI 现在要思考。为了思考，它必须推理。AI 现在要执行。为了执行，它必须推理。AI 要读文档，要推理。要校验，要推理。要规划，要推理。每一个动作都在消耗推理算力。这远远超出了训练的范围——现在已经进入了推理的战场。

训练的增长曲线会放缓——模型不会无限变大，训练方法论在逐渐收敛。但推理的增长曲线才刚开始陡峭。只要 AI 的应用场景还在扩展、只要 Agent 还在接管更多的工作，推理算力的需求就没有天花板。

这就是为什么英伟达宣布 2025 年是”推理之年”。他们把全部资源投入到推理优化上——这个赌注的背后逻辑就是推理拐点。

5000 亿变成了更大的数字

黄仁勋去年 GTC 2025 的时候说了一个数字：他们看到了 5000 亿美元的高置信度需求和采购订单，覆盖 Blackwell 和 Vera Rubin 两代产品，到 2026 年。

5000 亿美元。他在台上说完，停顿了一下。

台下没什么反应。

他笑了：

我知道你们为什么不惊讶。因为你们所有人去年都创下了营收记录。

一年后的今天，他站在同一个位置。数字更新了——同样的高置信度需求，现在覆盖到了 2027 年。他没有给出新的具体金额，但他说了一句话：

我确信实际的算力需求会比这个数字高得多。

如果推理需求在以百万倍的速度增长，而当前基础设施远远不够——这个市场的上限确实还没有被看到。

Blackwell 的 35 倍，和”隐藏实力”

为了说明英伟达如何应对这个爆炸性的需求，黄仁勋花了一大段时间讲 Grace Blackwell（也就是 NVLink 72 系统）相对上一代 Hopper 的性能提升。

按摩尔定律的传统节奏，每一代芯片能带来大约 1.5 倍到 2 倍的性能提升。所以如果你去年用的是 Hopper，你会预期今年的新芯片大概快 50% 到一倍。

但黄仁勋去年在台上说的数字是：推理性能每瓦提升了 35 倍。

这个数字当时没多少人信。35 倍太离谱了——即使是英伟达自己说的，业界也持怀疑态度。

然后独立分析机构 SemiAnalysis 做了迄今为止最全面的 AI 推理基准测试。他们的结论是——

黄仁勋太保守了。实际提升是 50 倍。

他在台上引用了分析师的原话：

他（分析师）指控我在”隐藏实力”。他没说错。

这个数字的商业意义非常直接：同一座数据中心，同样的电力约束下，换上 Blackwell 之后，能产出的 token 数量暴涨了 35 到 50 倍。对于靠 token 赚钱的 AI 公司来说，这直接等于潜在收入的同等倍数增长。

黄仁勋补了一句：

哪怕别人的架构是免费的，如果架构不对，也不够便宜。因为不管放什么进去，你还是要花钱建那座数据中心——一个千兆瓦的工厂，15 年摊销，差不多 400 亿美元。你最好确保放进去的是最好的计算系统。

他在说：在推理拐点到来的时刻，芯片的购买价格已经不是最重要的成本项了。数据中心的建设成本、电力成本才是。在这个约束下，芯片的绝对价格远不如”每瓦能产出多少智能”重要。

从 Blackwell 到 Feynman：每年一代全新架构

演讲里展示了英伟达的芯片路线图。每一个节点都代表一次完整的架构换代。

Blackwell（当前在产中）— NVLink 72，72 块 GPU 通过专有互连技术变成一台巨大的计算机。首次全面液冷，安装时间从两天降到两小时。用 45 度热水冷却——把传统上用于空调的电力省出来给计算。黄仁勋特别提到，以前安装这些系统需要铺设大量线缆，现在全部用结构化连接器，线缆几乎消失了。

Vera Rubin（下一代，已采样中）— 微软已经点亮了第一台 Vera Rubin 机架。在最有价值的推理场景（长上下文、高质量 token 生成），吞吐量再提升十倍。包含全新设计的 CPU（极端的单线程性能、极端的能效、全球唯一在数据中心使用低功耗内存的 CPU）。他说 Vera CPU 本来只是给 GPU 做配套的，结果独立销售的需求大到”肯定会变成一个数十亿美元的业务”。

Vera Rubin Ultra — 从 NVLink 72 升级到 NVLink 144，用了一种叫 Kyber 的全新机架。计算节点竖着插入，背面用中间背板连接所有节点，后面挂 NVLink 交换芯片。黄仁勋在台上搬了一个 Kyber 机架组件出来——很重，他没搬动，笑着说”我确定我搬得动，但我选择不搬”。

Feynman（再下一代）— 全新 GPU、全新 CPU（叫 Rosa）、全新网络芯片 CX10。铜线和光纤同时用于扩展——他反复强调两种连接方式都会继续存在，不存在”铜线 vs 光纤”的二选一。

每一代之间的间隔：一年。

他说：

每一年，全新架构。

然后放了一个时间轴：2016 年的 DGX-1（170 万亿次浮点运算），到 2026 年的 Vera Rubin 全系统——十年，4000 万倍算力提升。

4000 万倍。摩尔定律十年大约给你 30 倍。剩下的一百多万倍差距从哪来？从系统架构、互连技术、软件优化、散热工程、供应链协同——所有这些”非芯片”的东西。

英伟达管这个叫”极端代码设计”。本质上就是：硬件提升已经到瓶颈了，剩下的性能要靠系统级的垂直整合来榨取。而这恰恰是别人最难复制的部分——因为你不仅要有好芯片，你还要有好的互连、好的软件栈、好的编译器、好的领域专用库，以及一个愿意持续投入 20 年来维护这一切的组织。

推理拐点到来，算力需求百万倍增长——英伟达的回应是每年推出全新架构，加上持续的软件优化，让同样功率的数据中心每年都能产出更多的智能。这场军备竞赛的门槛，不只是能设计出好芯片，而是能年复一年地交付完整的系统级升级。