黄仁勋讲了什么③：Token 工厂——数据中心变成了什么

当推理成为 AI 的主要工作负载，数据中心的性质就变了。

黄仁勋用了一个很直白的描述：

你的数据中心，过去是存放文件的地方。现在，它是生产 token 的工厂。

Token 是 AI 的原子单位。每一次思考、每一句回答、每一段推理过程，都是 token 的生成。数据中心不再是一个”保管东西的地方”，而是一条”生产线”——投入电力，产出智能。

这个转变听起来像隐喻，但黄仁勋在演讲里反复强调它是字面意思。他花了可能有二十分钟的时间，就在讲一件事：怎么衡量这座工厂的效率，怎么让它赚更多钱。

那张”最好的幻灯片”

黄仁勋在台上展示了一张图，先说了一段话作为铺垫：

每次我问团队”我最好的幻灯片是哪张”，他们反复说就是这一张。然后他们说”Jensen 别用了”。我说不行，你们的座位是免费的，这就是你们的”门票钱”。

这张图的两个轴——

纵轴：吞吐量。在固定功率下，你的工厂每秒能产出多少 token。这代表产能。

横轴：token 生成速度。每次推理的响应速度有多快。但这个轴的真正含义更深——速度越快，意味着能用更大的模型、更长的上下文、更多的推理步骤。所以这个轴实质上代表的是 AI 的智能程度。

关键洞察：这两个指标天然矛盾。

AI 越聪明（用更大模型、更长上下文、更多推理步骤），单次推理就越慢，工厂的总吞吐就越低。精密零件的生产速度一定比粗加工慢——同样的道理。

黄仁勋说：

未来，每一个 CEO 都会深入研究这张图。它比我画的要复杂得多——是多维度的。但核心就是两个维度：吞吐量和 token 速度。这张图直接决定你的收入。你今年在这张图上的位置，精确地对应着你明年的营收。

这可能是我听过的对 AI 基础设施商业逻辑最精炼的描述。

Token 的分级定价

黄仁勋在台上直接把这张图翻译成了商业模型。他给出了一个分层定价的框架：

免费层 — 高吞吐，低智能。小模型，快速回答。目的是吸引用户进门。就像免费增值的入口。

基础付费层 — 每百万 token 大约三美元。模型更大一些，响应更精准一些。

高级层 — 每百万 token 六美元。更大的上下文窗口，更强的推理能力。

专业层 — 每百万 token 四十五美元。最聪明的模型，最长的上下文。

顶级层 — 每百万 token 一百五十美元。用于关键路径上的研究和决策。需要极高速度和最深度的推理能力。

他算了一笔账让大家感受量级：如果一个研究团队每天用 5000 万个 token，按每百万 150 美元算——一天七千五百美元。对一个专业研究团队来说，这根本不算什么。

然后他说了关键的运营决策：

假设你把 25% 的电力放在免费层，25% 在中档，25% 在高档，25% 在顶级——你只有一千兆瓦，你得决定怎么分配。免费层吸引用户，顶级层服务最有价值的客户。

一座数据中心就像一座工厂：产能有限（受电力约束），你得决定生产线怎么分配——多少条线做低端产品走量，多少条线做高端产品挣利润。这个分配策略，直接决定工厂的总营收。

黄仁勋在这里把 AI 基础设施的商业逻辑彻底拉到了传统制造业的语境里。数据中心不再是 IT 部门的”成本中心”，而是一个有产能约束、有产品分级、有定价策略的生产型资产。

Blackwell 带来的跳跃

黄仁勋用这个分层框架展示了为什么 Blackwell 是一个巨大的跳跃。

在这张吞吐量 × 速度的图上，上一代 Hopper 占据了一小块区域。按摩尔定律的传统节奏，你会预期下一代把这个区域扩大 1.5 倍。

Blackwell 把整个区域扩大了 35 倍。

这意味着什么？同一座千兆瓦的数据中心，换上 Blackwell 之后，在每一个服务层级都能产出数十倍的 token。按那个简化的四层分配模型算，同样的电力投入，总营收变成了 Hopper 的五倍。

然后他展示了 Vera Rubin 的位置。

Vera Rubin 在 Blackwell 的基础上，在最有价值的层级（高端推理、长上下文生成）再提升十倍。换算成营收——又是五倍。

如果你有 Vera Rubin，你应该尽快部署。你的 token 成本在下降，吞吐量在上升。

这句话是说给所有云厂商和 AI 公司听的。芯片换代在这个语境下根本不是”成本”——它是收入的乘数。越快升级到新一代，你的工厂每瓦产出的收入就越高。不升级的代价是：你的竞争对手用同样的电力赚了你五倍的钱。

Groq 补上了另一半

高吞吐和低延迟天然矛盾——NVLink 72 在吞吐端极其强大，但当你需要每秒一千个 token 以上的极致响应速度时，它的带宽到了物理极限。

英伟达收购了 Groq 团队，拿到了一种完全不同的计算架构——确定性数据流处理器。和 GPU 的运作方式完全不同：GPU 是动态调度的，Groq 是静态编译的。编译器在计算开始之前就把所有数据流动和计算步骤全部安排好了，没有运行时的调度开销。芯片上有大量的片上存储（SRAM），专门为推理设计。

但 Groq 有一个硬伤：单块芯片只有 500 兆字节的存储。而一块 Vera Rubin GPU 有 288 吉字节。一个万亿参数的模型要存放在 Groq 里，需要堆非常多的芯片。

他们想出的解决方案是拆开推理流水线。

用一个叫 Dynamo 的软件系统，把推理的不同阶段分配到不同的硬件上。预填充（理解输入内容）和注意力计算（需要大量数学运算和大量 KV 缓存）放在 Vera Rubin 上——它有海量的内存和强大的浮点算力。token 逐个生成的部分（需要极低延迟和极高带宽）交给 Groq——它的确定性调度和片上 SRAM 在这里发挥巨大优势。

两种极端架构，紧密耦合，各做各最擅长的事。

效果是什么？在最高端的 token 生成场景，性能再提升 35 倍。而且开拓了一个全新的服务层级——超高速 token 生成，这是以前纯 GPU 系统无论如何达不到的。

黄仁勋建议的配比是大概 75% 的数据中心用 Vera Rubin，25% 加 Groq。大部分工作负载还是高吞吐的批处理，但有一部分高价值场景（比如实时编程助手、关键决策支持）需要极致的 token 生成速度。

用他的营收框架来算：纯 Vera Rubin 是 Blackwell 的五倍。加上 Groq 之后，因为开辟了以前不存在的超高端层级，总营收天花板又抬高了。

AI 工厂的数字孪生

建一座千兆瓦级的 AI 工厂，投资规模大约 400 亿美元（按 15 年摊销）。这个量级的基础设施，每个月的建设延误都意味着数十亿美元的潜在收入损失。

黄仁勋说他们用 Omniverse（英伟达的虚拟世界引擎）给 AI 工厂做数字孪生。在虚拟环境里把整座工厂从头模拟出来——机械结构、热力学、电力系统、网络拓扑。所有设备供应商在虚拟环境里先”见面”，把集成问题提前解决掉。

这些系统的大部分组件在过去从来没有在数据中心之外见过面。它们以前是到了工地才第一次碰在一起。这种事不能再发生了——我们在建造超级复杂的系统。

工厂建成后，数字孪生变成实时运营工具。AI Agent 监控冷却、电力、电网需求，动态调整算力分配和功耗管理。

他提了一个数字——这里面藏着两倍的效率差距。

一座精心设计和运营的 AI 工厂，和一座凑合着建起来的工厂，在同样的电力约束下，token 产出可能差两倍。在千兆瓦级别的投资规模上，两倍就是几百亿美元的差距。

供应链被拉到了什么规模

有一个细节值得单独说。

黄仁勋在演讲中提到，英伟达的供应链里现在有 150 年历史的公司。从 50 年到 150 年历史不等的工业企业，都加入了英伟达的上下游生态——电力设备、冷却系统、机柜、布线、光纤连接器。

他问台下：你们去年是不是都创了营收记录？

台下的反应说明确实如此。

这意味着什么？AI 工厂的建设已经拉动了整条工业供应链。英伟达现在的制造产能是每周数千台系统，相当于每个月多个千兆瓦级 AI 工厂的出货量。

他还提到了一个听起来像科幻但已经在推进的方向：太空数据中心。英伟达的 Thor 芯片已经通过了辐射认证，在卫星上运行。他们正在和合作伙伴研发 Vera Rubin Space One。

太空的挑战在于散热——没有空气对流、没有液体传导，只能靠辐射。但太空有几乎无限的太阳能和无限的空间。

他没展开太多，但这个方向的存在本身就说明一件事：地面的电力和土地正在成为 AI 扩张的硬约束，已经有人在认真研究把计算搬到物理空间不受限的地方去了。

意识转变

这篇写了很多技术细节和商业模型，但核心其实是一个意识转变。

以前 IT 部门花钱建数据中心，是为了支撑业务运行——员工要用邮件，客户要访问网站，交易要入库。数据中心是”必要的支出”，花出去的每一分钱都是成本。

现在完全反过来了。数据中心生产 token，token 直接变成收入。推理基础设施的效率——每瓦能产出多少 token、能以多快的速度产出——直接决定了利润率。

黄仁勋在台上反复教 CEO 们看那张吞吐量 × 速度的图。因为那张图已经不是技术指标了——它就是你的收入结构图。你在哪个象限，你能覆盖哪些服务层级，你的电力分配策略是什么——这些决策直接对应着你未来一年的营收数字。

数据中心变成了工厂。工厂的产品是 token。token 的买家是每一个需要智能的人和每一个需要思考的 Agent。

这个市场有多大？黄仁勋给的答案是：他站在那里，看到的需求已经超过了一万亿美元。而且他确信实际需求会更高。