跳到正文

黄仁勋讲了什么③:Token 工厂——数据中心变成了什么

发布于:
15 分钟阅读

当推理成为 AI 的主要工作负载,数据中心的性质就变了。

黄仁勋用了一个很直白的描述:

你的数据中心,过去是存放文件的地方。现在,它是生产 token 的工厂。

Token 是 AI 的原子单位。每一次思考、每一句回答、每一段推理过程,都是 token 的生成。数据中心不再是一个”保管东西的地方”,而是一条”生产线”——投入电力,产出智能。

这个转变听起来像隐喻,但黄仁勋在演讲里反复强调它是字面意思。他花了可能有二十分钟的时间,就在讲一件事:怎么衡量这座工厂的效率,怎么让它赚更多钱。


那张”最好的幻灯片”

黄仁勋在台上展示了一张图,先说了一段话作为铺垫:

每次我问团队”我最好的幻灯片是哪张”,他们反复说就是这一张。然后他们说”Jensen 别用了”。我说不行,你们的座位是免费的,这就是你们的”门票钱”。

这张图的两个轴——

纵轴:吞吐量。在固定功率下,你的工厂每秒能产出多少 token。这代表产能。

横轴:token 生成速度。每次推理的响应速度有多快。但这个轴的真正含义更深——速度越快,意味着能用更大的模型、更长的上下文、更多的推理步骤。所以这个轴实质上代表的是 AI 的智能程度

关键洞察:这两个指标天然矛盾。

AI 越聪明(用更大模型、更长上下文、更多推理步骤),单次推理就越慢,工厂的总吞吐就越低。精密零件的生产速度一定比粗加工慢——同样的道理。

黄仁勋说:

未来,每一个 CEO 都会深入研究这张图。它比我画的要复杂得多——是多维度的。但核心就是两个维度:吞吐量和 token 速度。这张图直接决定你的收入。你今年在这张图上的位置,精确地对应着你明年的营收。

这可能是我听过的对 AI 基础设施商业逻辑最精炼的描述。


Token 的分级定价

黄仁勋在台上直接把这张图翻译成了商业模型。他给出了一个分层定价的框架:

免费层 — 高吞吐,低智能。小模型,快速回答。目的是吸引用户进门。就像免费增值的入口。

基础付费层 — 每百万 token 大约三美元。模型更大一些,响应更精准一些。

高级层 — 每百万 token 六美元。更大的上下文窗口,更强的推理能力。

专业层 — 每百万 token 四十五美元。最聪明的模型,最长的上下文。

顶级层 — 每百万 token 一百五十美元。用于关键路径上的研究和决策。需要极高速度和最深度的推理能力。

他算了一笔账让大家感受量级:如果一个研究团队每天用 5000 万个 token,按每百万 150 美元算——一天七千五百美元。对一个专业研究团队来说,这根本不算什么。

然后他说了关键的运营决策:

假设你把 25% 的电力放在免费层,25% 在中档,25% 在高档,25% 在顶级——你只有一千兆瓦,你得决定怎么分配。免费层吸引用户,顶级层服务最有价值的客户。

一座数据中心就像一座工厂:产能有限(受电力约束),你得决定生产线怎么分配——多少条线做低端产品走量,多少条线做高端产品挣利润。这个分配策略,直接决定工厂的总营收。

黄仁勋在这里把 AI 基础设施的商业逻辑彻底拉到了传统制造业的语境里。数据中心不再是 IT 部门的”成本中心”,而是一个有产能约束、有产品分级、有定价策略的生产型资产


Blackwell 带来的跳跃

黄仁勋用这个分层框架展示了为什么 Blackwell 是一个巨大的跳跃。

在这张吞吐量 × 速度的图上,上一代 Hopper 占据了一小块区域。按摩尔定律的传统节奏,你会预期下一代把这个区域扩大 1.5 倍。

Blackwell 把整个区域扩大了 35 倍。

这意味着什么?同一座千兆瓦的数据中心,换上 Blackwell 之后,在每一个服务层级都能产出数十倍的 token。按那个简化的四层分配模型算,同样的电力投入,总营收变成了 Hopper 的五倍

然后他展示了 Vera Rubin 的位置。

Vera Rubin 在 Blackwell 的基础上,在最有价值的层级(高端推理、长上下文生成)再提升十倍。换算成营收——又是五倍

如果你有 Vera Rubin,你应该尽快部署。你的 token 成本在下降,吞吐量在上升。

这句话是说给所有云厂商和 AI 公司听的。芯片换代在这个语境下根本不是”成本”——它是收入的乘数。越快升级到新一代,你的工厂每瓦产出的收入就越高。不升级的代价是:你的竞争对手用同样的电力赚了你五倍的钱。


Groq 补上了另一半

高吞吐和低延迟天然矛盾——NVLink 72 在吞吐端极其强大,但当你需要每秒一千个 token 以上的极致响应速度时,它的带宽到了物理极限。

英伟达收购了 Groq 团队,拿到了一种完全不同的计算架构——确定性数据流处理器。和 GPU 的运作方式完全不同:GPU 是动态调度的,Groq 是静态编译的。编译器在计算开始之前就把所有数据流动和计算步骤全部安排好了,没有运行时的调度开销。芯片上有大量的片上存储(SRAM),专门为推理设计。

但 Groq 有一个硬伤:单块芯片只有 500 兆字节的存储。而一块 Vera Rubin GPU 有 288 吉字节。一个万亿参数的模型要存放在 Groq 里,需要堆非常多的芯片。

他们想出的解决方案是拆开推理流水线

用一个叫 Dynamo 的软件系统,把推理的不同阶段分配到不同的硬件上。预填充(理解输入内容)和注意力计算(需要大量数学运算和大量 KV 缓存)放在 Vera Rubin 上——它有海量的内存和强大的浮点算力。token 逐个生成的部分(需要极低延迟和极高带宽)交给 Groq——它的确定性调度和片上 SRAM 在这里发挥巨大优势。

两种极端架构,紧密耦合,各做各最擅长的事。

效果是什么?在最高端的 token 生成场景,性能再提升 35 倍。而且开拓了一个全新的服务层级——超高速 token 生成,这是以前纯 GPU 系统无论如何达不到的。

黄仁勋建议的配比是大概 75% 的数据中心用 Vera Rubin,25% 加 Groq。大部分工作负载还是高吞吐的批处理,但有一部分高价值场景(比如实时编程助手、关键决策支持)需要极致的 token 生成速度。

用他的营收框架来算:纯 Vera Rubin 是 Blackwell 的五倍。加上 Groq 之后,因为开辟了以前不存在的超高端层级,总营收天花板又抬高了。


AI 工厂的数字孪生

建一座千兆瓦级的 AI 工厂,投资规模大约 400 亿美元(按 15 年摊销)。这个量级的基础设施,每个月的建设延误都意味着数十亿美元的潜在收入损失。

黄仁勋说他们用 Omniverse(英伟达的虚拟世界引擎)给 AI 工厂做数字孪生。在虚拟环境里把整座工厂从头模拟出来——机械结构、热力学、电力系统、网络拓扑。所有设备供应商在虚拟环境里先”见面”,把集成问题提前解决掉。

这些系统的大部分组件在过去从来没有在数据中心之外见过面。它们以前是到了工地才第一次碰在一起。这种事不能再发生了——我们在建造超级复杂的系统。

工厂建成后,数字孪生变成实时运营工具。AI Agent 监控冷却、电力、电网需求,动态调整算力分配和功耗管理。

他提了一个数字——这里面藏着两倍的效率差距

一座精心设计和运营的 AI 工厂,和一座凑合着建起来的工厂,在同样的电力约束下,token 产出可能差两倍。在千兆瓦级别的投资规模上,两倍就是几百亿美元的差距。


供应链被拉到了什么规模

有一个细节值得单独说。

黄仁勋在演讲中提到,英伟达的供应链里现在有 150 年历史的公司。从 50 年到 150 年历史不等的工业企业,都加入了英伟达的上下游生态——电力设备、冷却系统、机柜、布线、光纤连接器。

他问台下:你们去年是不是都创了营收记录?

台下的反应说明确实如此。

这意味着什么?AI 工厂的建设已经拉动了整条工业供应链。英伟达现在的制造产能是每周数千台系统,相当于每个月多个千兆瓦级 AI 工厂的出货量。

他还提到了一个听起来像科幻但已经在推进的方向:太空数据中心。英伟达的 Thor 芯片已经通过了辐射认证,在卫星上运行。他们正在和合作伙伴研发 Vera Rubin Space One。

太空的挑战在于散热——没有空气对流、没有液体传导,只能靠辐射。但太空有几乎无限的太阳能和无限的空间。

他没展开太多,但这个方向的存在本身就说明一件事:地面的电力和土地正在成为 AI 扩张的硬约束,已经有人在认真研究把计算搬到物理空间不受限的地方去了。


意识转变

这篇写了很多技术细节和商业模型,但核心其实是一个意识转变。

以前 IT 部门花钱建数据中心,是为了支撑业务运行——员工要用邮件,客户要访问网站,交易要入库。数据中心是”必要的支出”,花出去的每一分钱都是成本。

现在完全反过来了。数据中心生产 token,token 直接变成收入。推理基础设施的效率——每瓦能产出多少 token、能以多快的速度产出——直接决定了利润率。

黄仁勋在台上反复教 CEO 们看那张吞吐量 × 速度的图。因为那张图已经不是技术指标了——它就是你的收入结构图。你在哪个象限,你能覆盖哪些服务层级,你的电力分配策略是什么——这些决策直接对应着你未来一年的营收数字。

数据中心变成了工厂。工厂的产品是 token。token 的买家是每一个需要智能的人和每一个需要思考的 Agent。

这个市场有多大?黄仁勋给的答案是:他站在那里,看到的需求已经超过了一万亿美元。而且他确信实际需求会更高。