跳到正文

黄仁勋讲了什么②:算力需求两年涨了一百万倍

发布于:
17 分钟阅读

黄仁勋在台上说了一个数字:过去两年,AI 的算力需求涨了大约一百万倍。

一百万倍。

这个数字第一反应肯定觉得是夸张。英伟达卖 GPU 的,当然希望你觉得需求是无限的。但他花了很长时间在台上拆解这个数字的来源,逻辑链条其实很清晰。而且更关键的——他用这个数字引出了一个概念,叫”推理拐点”。

推理拐点的意思是:AI 行业的主要算力消耗,正在从训练转向推理。 训练是教 AI,推理是让 AI 干活。当 AI 开始真正干活了,算力需求的增长模式就彻底变了。


三件事叠在一起

黄仁勋的拆解是这样的——过去两年发生了三件事情,每一件都大幅推高了算力需求,而且它们是叠加关系。

第一件:ChatGPT 开启了生成式 AI 时代。

AI 过去做的事是检索——你问问题,它从数据库里找最接近的答案给你。现在做的事是生成——它理解你的问题,然后凭理解创造一个回答。

黄仁勋说这个变化比大多数人理解的更深。他用了一个很直白的表述:

生成式 AI 改变了计算的方式。计算过去是基于检索的,现在是生成式的。

他让观众”记住这个概念”——因为后面他在讲 AI 工厂、讲 Token 经济学的时候,都要回来指向这个基础性的范式转移:计算机做的事从”找到东西”变成了”创造东西”。

第二件:推理模型出现了。

2023 年底到 2024 年,这是一个分水岭。AI 学会了”想一想再回答”。

黄仁勋具体提到了 o1 和 o3 这两个推理模型。他的描述是:

推理让 AI 能反思,让它能自己做计划,把一个它理解不了的问题拆成它能理解的步骤。它能基于研究来校准自己。o1 让生成式 AI 变得可信赖,锚定在事实上。

推理模型改变了什么?改变了 token 的消耗量。

以前你问 ChatGPT 一个问题,它生成几十个 token 就给你答案了。现在推理模型在回答之前,要先”在脑子里”想很多步——分解问题、验证假设、反复推敲。这些”思考过程”每一步都是 token,都要消耗算力。输入的上下文变长了(因为需要更多信息做判断),输出的推理链也变长了。

黄仁勋给了一个量级:推理模型相比普通对话模型,单次任务的计算量大约高了一万倍

ChatGPT 一出来就爆火了。但推理模型让它真正有了生产力。以前用 ChatGPT 写个邮件、查个信息,觉得”嗯还行”。推理模型出来之后,AI 能做研究、能分析复杂问题、能写出可用的代码了。用户粘性和使用频率因此暴涨。

第三件:Agent 出现了。

黄仁勋专门提到了 Claude Code——他把它称为”第一个 Agent 模型”。

它能读文件、写代码、编译、测试、评估,然后回过头来迭代改进。Cloud Code 彻底改变了软件工程。

然后他说了一组数据:英伟达内部百分之百的软件工程师都在用 AI 编程助手。要么是 Claude Code,要么是 Codex,要么是 Cursor,或者几个同时用。

Agent 的关键变化在于:AI 从”回答问题”变成了”完成任务”。

以前你和 AI 的交互模式是:你问一句,它答一句,一来一回。现在你给它一个目标——“帮我重构这个模块”——它自己拆解任务、读文件、写代码、测试、发现 bug、修复、再测试,可能跑几个小时。整个过程中它在持续消耗算力。

黄仁勋用了一组对比来描述这个变化:

你不再问 AI”什么、在哪、怎么”。你告诉它”创建、执行、构建”。你让它使用工具,读取你的上下文,读文件。它能自主地分解问题、推理、反思。它能解决问题,完成真正的工作。


一万倍 × 一百倍

黄仁勋把这三件事叠在一起算了一笔账。

推理模型让单次任务的计算量涨了大约一万倍。与此同时,使用量涨了大约一百倍——更多人在用,每个人用得更频繁,Agent 还在 24 小时不停地跑。

一万乘以一百,就是一百万倍。

他说这个数字不是精确统计,但描述了所有人的真实体感:

这是我们所有人都感受到的。每一家创业公司都感受到了。OpenAI 感受到了。Anthropic 感受到了。如果他们能得到更多算力,就能生成更多 token,收入就会上升,更多人就能使用,AI 就能变得更聪明。我们现在已经进入了那个正向飞轮。

这段话里有一个微妙的信号。他在说——现在限制 AI 进步的瓶颈,已经从算法和数据,转移到了算力。谁有更多 GPU,谁的 AI 就更聪明,谁就能服务更多用户,谁就能赚更多钱去买更多 GPU。

又是一个飞轮。但跟 CUDA 的飞轮不同——CUDA 那个是 20 年慢慢转起来的,这个是两年之内突然加速到让所有人都跟不上的。

他接着说了一组市场数据:GPU 的现货定价在飙升,你有钱都买不到。英伟达拼命出货,需求还是在加速增长。


训练 vs 推理:两个完全不同的增长模式

黄仁勋用了一个很清晰的框架来解释”推理拐点”。

以前 AI 行业的核心工作是训练。用海量数据和海量算力把模型训练出来——这个过程很贵,但它是阶段性的。你训练完一个模型,它可以服务很长时间。算力需求是”脉冲式”的:训练的时候吃满所有 GPU,训练完了算力就释放出来了。

推理完全不同。AI 每次思考、每次回答、每次执行任务,都在消耗推理算力。而且推理是持续性的——24 小时不间断。每多一个用户,每多一个 Agent,就多一份持续的算力消耗。

他的原话:

AI 现在要思考。为了思考,它必须推理。AI 现在要执行。为了执行,它必须推理。AI 要读文档,要推理。要校验,要推理。要规划,要推理。每一个动作都在消耗推理算力。这远远超出了训练的范围——现在已经进入了推理的战场。

训练的增长曲线会放缓——模型不会无限变大,训练方法论在逐渐收敛。但推理的增长曲线才刚开始陡峭。只要 AI 的应用场景还在扩展、只要 Agent 还在接管更多的工作,推理算力的需求就没有天花板。

这就是为什么英伟达宣布 2025 年是”推理之年”。他们把全部资源投入到推理优化上——这个赌注的背后逻辑就是推理拐点。


5000 亿变成了更大的数字

黄仁勋去年 GTC 2025 的时候说了一个数字:他们看到了 5000 亿美元的高置信度需求和采购订单,覆盖 Blackwell 和 Vera Rubin 两代产品,到 2026 年。

5000 亿美元。他在台上说完,停顿了一下。

台下没什么反应。

他笑了:

我知道你们为什么不惊讶。因为你们所有人去年都创下了营收记录。

一年后的今天,他站在同一个位置。数字更新了——同样的高置信度需求,现在覆盖到了 2027 年。他没有给出新的具体金额,但他说了一句话:

我确信实际的算力需求会比这个数字高得多。

如果推理需求在以百万倍的速度增长,而当前基础设施远远不够——这个市场的上限确实还没有被看到。


Blackwell 的 35 倍,和”隐藏实力”

为了说明英伟达如何应对这个爆炸性的需求,黄仁勋花了一大段时间讲 Grace Blackwell(也就是 NVLink 72 系统)相对上一代 Hopper 的性能提升。

按摩尔定律的传统节奏,每一代芯片能带来大约 1.5 倍到 2 倍的性能提升。所以如果你去年用的是 Hopper,你会预期今年的新芯片大概快 50% 到一倍。

但黄仁勋去年在台上说的数字是:推理性能每瓦提升了 35 倍

这个数字当时没多少人信。35 倍太离谱了——即使是英伟达自己说的,业界也持怀疑态度。

然后独立分析机构 SemiAnalysis 做了迄今为止最全面的 AI 推理基准测试。他们的结论是——

黄仁勋太保守了。实际提升是 50 倍。

他在台上引用了分析师的原话:

他(分析师)指控我在”隐藏实力”。他没说错。

这个数字的商业意义非常直接:同一座数据中心,同样的电力约束下,换上 Blackwell 之后,能产出的 token 数量暴涨了 35 到 50 倍。对于靠 token 赚钱的 AI 公司来说,这直接等于潜在收入的同等倍数增长。

黄仁勋补了一句:

哪怕别人的架构是免费的,如果架构不对,也不够便宜。因为不管放什么进去,你还是要花钱建那座数据中心——一个千兆瓦的工厂,15 年摊销,差不多 400 亿美元。你最好确保放进去的是最好的计算系统。

他在说:在推理拐点到来的时刻,芯片的购买价格已经不是最重要的成本项了。数据中心的建设成本、电力成本才是。在这个约束下,芯片的绝对价格远不如”每瓦能产出多少智能”重要。


从 Blackwell 到 Feynman:每年一代全新架构

演讲里展示了英伟达的芯片路线图。每一个节点都代表一次完整的架构换代。

Blackwell(当前在产中)— NVLink 72,72 块 GPU 通过专有互连技术变成一台巨大的计算机。首次全面液冷,安装时间从两天降到两小时。用 45 度热水冷却——把传统上用于空调的电力省出来给计算。黄仁勋特别提到,以前安装这些系统需要铺设大量线缆,现在全部用结构化连接器,线缆几乎消失了。

Vera Rubin(下一代,已采样中)— 微软已经点亮了第一台 Vera Rubin 机架。在最有价值的推理场景(长上下文、高质量 token 生成),吞吐量再提升十倍。包含全新设计的 CPU(极端的单线程性能、极端的能效、全球唯一在数据中心使用低功耗内存的 CPU)。他说 Vera CPU 本来只是给 GPU 做配套的,结果独立销售的需求大到”肯定会变成一个数十亿美元的业务”。

Vera Rubin Ultra — 从 NVLink 72 升级到 NVLink 144,用了一种叫 Kyber 的全新机架。计算节点竖着插入,背面用中间背板连接所有节点,后面挂 NVLink 交换芯片。黄仁勋在台上搬了一个 Kyber 机架组件出来——很重,他没搬动,笑着说”我确定我搬得动,但我选择不搬”。

Feynman(再下一代)— 全新 GPU、全新 CPU(叫 Rosa)、全新网络芯片 CX10。铜线和光纤同时用于扩展——他反复强调两种连接方式都会继续存在,不存在”铜线 vs 光纤”的二选一。

每一代之间的间隔:一年。

他说:

每一年,全新架构。

然后放了一个时间轴:2016 年的 DGX-1(170 万亿次浮点运算),到 2026 年的 Vera Rubin 全系统——十年,4000 万倍算力提升

4000 万倍。摩尔定律十年大约给你 30 倍。剩下的一百多万倍差距从哪来?从系统架构、互连技术、软件优化、散热工程、供应链协同——所有这些”非芯片”的东西。

英伟达管这个叫”极端代码设计”。本质上就是:硬件提升已经到瓶颈了,剩下的性能要靠系统级的垂直整合来榨取。而这恰恰是别人最难复制的部分——因为你不仅要有好芯片,你还要有好的互连、好的软件栈、好的编译器、好的领域专用库,以及一个愿意持续投入 20 年来维护这一切的组织。

推理拐点到来,算力需求百万倍增长——英伟达的回应是每年推出全新架构,加上持续的软件优化,让同样功率的数据中心每年都能产出更多的智能。这场军备竞赛的门槛,不只是能设计出好芯片,而是能年复一年地交付完整的系统级升级。