跳到正文

黄仁勋讲了什么①:英伟达最贵的资产,根本不在工厂里

发布于:
21 分钟阅读

GTC 2026,黄仁勋主题演讲将近两个小时。

芯片、机器人、Agent、Vera Rubin——每一个都够单独写一篇。但他花时间最多、最用力讲的,是 CUDA 成立 20 周年。

一家两万亿美元市值的公司,主题演讲用来讲一个 20 年前发明的软件架构。

我当时的第一反应是:这是情怀。然后越听越觉得不对——他在提醒所有人,包括英伟达自己,这家公司最难被复制的资产,从来都不在台积电的工厂里,而是 CUDA 跑了 20 年积累下来的安装基数。几亿块 GPU,几十万个开源项目,一千个专用库,几百万个已经把 CUDA 写进肌肉记忆的工程师。


飞轮是真实存在的

黄仁勋在台上放了一张幻灯片,然后说了一句话——

这张幻灯片基本描述了英伟达百分之百的战略。

就一张图,一个循环。

安装基数越大 → 吸引更多开发者 → 开发者跑出更多算法突破 → 突破催生新市场 → 新市场扩大安装基数。

这个循环已经转了 20 年。但他真正想强调的,是循环底部那一层——安装基数。他说:

最难达成的,就是这个底部——安装基数。我们花了 20 年,才在全世界建立起数亿块 GPU 和计算系统的安装基数。我们进入了每一个云平台,每一家计算机公司。

然后他补了一段很多报道忽略掉的话:英伟达在持续”赔本”维护这个庞大的历史遗产。

六年前出货的 Ampere GPU,他们今天还在持续更新软件。为什么?因为每释放一次新优化,全球数百万张旧卡同时受益。他的原话是:

英伟达愿意去维护、去支持世界上每一块 GPU,因为它们在架构上全部兼容。我们愿意这么做,是因为安装基数足够大。我们释放一次新优化,受益的是数百万块卡。

然后他丢了一个反直觉的数字:六年前的 Ampere,在云上的定价,现在反而在涨。

为什么一块六年前的旧卡还能涨价?因为上面能跑的应用越来越多——CUDA 库持续更新,新的 AI 框架不断适配。旧硬件的使用场景在增加,实际价值在往上走。

这是一个正向自强化系统。英伟达越大,维护成本越高;但维护带来的粘性,又让安装基数更难被撼动。换芯片的成本是重新买一块硬件;换 CUDA 的成本是重新学一门母语。后者的迁移壁垒远远高于前者。


你父母给你买的第一块显卡

黄仁勋讲 GeForce 那段,我觉得是整场最有意思的片段。

他先说了一句台下笑了很久的话:

GeForce 是英伟达有史以来最伟大的一次营销。

然后他解释为什么——

我们在你还买不起的时候就锁定了你。你的父母替你付了钱,让你成为英伟达的用户。他们每年都在付,年复一年,直到有一天你变成了一个出色的计算机科学家,终于成了一个”正经客户”、一个”正经开发者”。

这段话你仔细想想有多狠。

十几岁的小孩想打游戏,父母给买了一块 GeForce 显卡。通过打游戏这件事,这个小孩学会了用 GPU。等他上了大学、读了计算机科学、进了实验室或者创业公司——CUDA 已经是他的基础设施了。他不会去选别的编程模型,就像你长大后不会突然换一门母语。

英伟达在你还没有购买力的时候就锁定了你。而且你是心甘情愿的——因为你要打游戏。

这件事是 25 年前就刻意设计好的。

1999 年,英伟达发明了可编程着色器——世界上第一个可编程的加速器。黄仁勋管它叫”完全不显而易见的发明”——谁会想到要把一个加速器做成可编程的呢?当时看起来完全多此一举。但五年后,正是因为 GPU 可编程,才有了 CUDA 的可能。

然后就是 CUDA 的关键——它本身的技术价值很大,但真正的杠杆在于传播方式。

我们做过最大的一笔投资——当时根本负担不起,它吞掉了公司利润的绝大部分——就是把 CUDA 搭在 GeForce 的背上,送进每一台电脑。

他们让每一台消费级电脑都变成了 CUDA 的传播载体。当时英伟达的利润微薄,但他们还是做了这个决定,而且坚持了 13 代芯片、20 年时间。

黄仁勋在台上回顾这段历史的时候,用了一个词——“尽管开头很艰难,但我们每一天都相信它”。

今天英伟达的生态格局,是这件事的结果。芯片卖得好只是果,25 年前那个传播决策才是因。


深度学习大爆炸,其实是意外收获

CUDA 本来不是为 AI 设计的。

它的初衷是让更多人能用 GPU 做并行计算——物理模拟、科学计算、图形渲染。CUDA 的全名里带着”通用”二字,设计目标是让 GPU 不只干图形的活。

但 2012 年发生了一件事:Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 用 GeForce 上的 CUDA 跑了一个卷积神经网络,在 ImageNet 图像识别竞赛上准确率把第二名甩出了十个百分点。这一枪打响了深度学习大爆炸。

黄仁勋在台上专门提到了他们的名字:

正是 GeForce 让 Krizhevsky、Sutskever 和 Hinton——还有 Andrew Ng 和很多其他人——发现 GPU 可以成为加速深度学习的伙伴。它引发了 AI 的大爆炸。

关键点是:这些研究者当时用的是消费级游戏显卡。不是专业的数据中心卡,不是定制的 AI 芯片——就是你打游戏用的那块 GeForce。因为 CUDA 已经在上面跑了多年,他们直接就能用来做深度学习实验。

飞轮到这里完成了最关键的一圈——安装基数吸引了开发者,开发者跑出了一个前所未有的算法突破(深度学习),这个突破催生了一个全新市场(AI),然后这个新市场的规模远超最初的游戏显卡市场。

英伟达没有”计划”好这件事。没有人在 2004 年创建 CUDA 的时候预见到 2012 年的 AlexNet。但他们在 2012 年之前已经把基础工作做了八年——CUDA 已经无处不在了,飞轮的底盘已经铸好了。当机会来的时候,它能转起来。

这是”做了一个正确的决定,然后坚持足够久”的典型案例。


摩尔定律死了,替代品叫垂直整合

演讲里有一段,黄仁勋在很较劲地解释一个概念。他语速快了很多,感觉他觉得这个点特别重要但一直没被充分理解。

他说——“加速计算”这个词,一直缺了一个定语。

加速计算不是芯片问题,也不是系统问题。这个词里一直少了一个词,我们只是不再说了——应用加速。

什么意思?

普通 CPU 做的事是”让所有东西快一点”。这叫通用计算。摩尔定律让它每两年快一倍,持续了几十年。但现在——

摩尔定律已经耗尽了动力。我们需要新的路径。

英伟达的路径,是针对每一个具体的应用领域,去理解那个领域的算法结构,然后开发专门的库来加速它。

这直接解释了为什么英伟达必须做成一家”垂直整合”的公司。他不能只设计芯片然后等别人来写软件——他得自己进入每一个领域,理解里面的数学结构,开发对应的加速库。

量化交易有一套算法结构。药物发现有一套。机器人控制有一套。计算光刻有一套。基因组学有一套。天气预报有一套。

黄仁勋说 GTC 这次一口气发布了将近一百个新库。他管这些库叫——

这些库是我们公司的皇冠上的宝石。正是这些库,让计算平台能够被激活,去服务于解决一个特定问题、产生实际的影响。

然后他给出了一个总结,我觉得是理解英伟达商业模式最精炼的一句话:

英伟达是一家垂直整合但水平开放的公司。世界上第一家这样的计算公司。

垂直整合:从芯片到系统到库到应用,全栈打通,从底层硬件一直深入到具体应用的算法。水平开放:不管你想在哪个云、哪个平台、哪个场景部署,英伟达的技术都能接进去。

这两件事缺一不可。只有垂直整合才能做出真正的加速——你得理解应用才能加速应用;只有水平开放才能维持安装基数的增长——不绑定任何一个平台,所有人都能用。

他在演讲里反复展示英伟达和各大云平台(谷歌云、AWS、微软 Azure、Oracle Cloud、CoreWeave)的合作关系时,说了一句话解释这个模式怎么运转:

我们的与云服务商的关系,本质上是我们帮他们带客户。我们整合自己的库,加速特定的工作负载,然后把客户落到他们的云上。

英伟达赚硬件的钱,云厂商赚托管的钱,开发者拿到加速后的应用。三方获益,飞轮继续转。


结构化数据和生成式 AI 的融合

演讲里有一个概念,黄仁勋特别强调了,但大多数报道都没有认真对待。

他在演示下一代图形渲染技术的时候引出了这个框架。他展示了一个叫”神经渲染”的东西——把传统 3D 图形(完全可控的、确定性的结构化数据)和生成式 AI(概率性的、高度真实但不完全可控的)融合在一起。

然后他说了一句很重的话:

结构化数据是可信赖 AI 的基础。结构化信息和生成式 AI 融合这件事,会在一个行业接一个行业地重复出现。

他把这个逻辑从图形渲染一路拉到了企业数据层面。

每个行业都有自己的”结构化地基”——银行的交易记录、工厂的传感器数据、医院的病历数据库、零售商的供应链系统。黄仁勋管它叫”业务的真实基底”。

而全世界每年产生的数据,90% 是非结构化的——文档、视频、语音、图像、PDF。在 AI 出现之前,这些数据基本没用。你存了,然后就躺在那里。没法有效检索,没法查询,因为你得先理解它的含义才能建索引。

他的原话:

到目前为止,这些数据对世界来说基本没有用处。我们读了它,把它放进文件系统,就这样了。我们没法查询它,没法搜索它——因为非结构化数据没有简单的索引方式。你必须理解它的含义和目的。

现在 AI 能做这件事了——通过多模态感知和理解,AI 能读一份 PDF、理解它的内容、提取含义,然后把这个含义嵌入到一个可以搜索和查询的结构里。

英伟达因此发布了两个基础库——一个叫 cuDF,加速结构化数据处理(就是传统的 SQL 查询、表格计算那些);一个叫 cuVS,加速向量数据库(非结构化数据的语义检索)。黄仁勋把这两个库的地位等同于当年图形渲染里的 RTX。

这个框架值得记住:AI 在做的事情,是把非结构化信息接入企业已有的结构化数据系统,让积累了几十年的数据资产第一次能被机器真正理解和使用。

他举了雀巢的例子:雀巢每天要做数千个供应链决策,跨 185 个国家。以前用 CPU 处理,一天刷新几次数据。换成 GPU 加速后,同样的工作量快了五倍,成本降了 83%。

这也解释了为什么 IBM、Snowflake、Databricks、Dell 这些”老”公司,全都出现在了这场演讲里。SQL 作为一门查询语言都 60 年了,IBM 还在跟英伟达一起给它加速。因为结构化数据是企业的地基——地基不换,但需要被 AI 时代重新激活。


英伟达在怕什么

理解了飞轮,就能理解英伟达的恐惧。

英伟达最大的风险,从来都不是有人造出了比 Blackwell 更快的芯片——虽然这很难。真正的风险是:有人做出了一套开发者愿意迁移过去的新生态。

迁移成本极高,所以出现的概率不高。但不是零。

AMD 一直在努力但没成。他们的硬件性能其实不差,但 ROCm 软件生态和 CUDA 的差距是数量级的。谷歌的 TPU 在内部特定场景下跑得很好,但它是封闭的——你只能在谷歌云上用,没有形成开放的开发者生态。英特尔试了多年,基本放弃了独立 GPU 的路线。

但 AI 这波浪潮给了新玩家一个窗口期。如果一家公司能在 AI 推理这个全新的场景里,用一套新的编程模型积累到足够多的开发者,飞轮理论上可能有机会从头转起来。

黄仁勋花那么长时间讲飞轮,讲 20 年的坚持,讲安装基数的不可替代性——我认为他在做两件事:一是对外展示壁垒的厚度,让投资者和客户放心;二是对内提醒团队,飞轮是英伟达最大的优势,也是唯一真正输不起的东西。维护它的成本很高,但停止维护的代价是致命的。


一些值得记住的数字

1500 亿美元 — 过去一年全球 AI 初创公司拿到的风险投资总额,人类历史上最大的一次。而且第一次出现大量单笔数亿甚至数十亿美元的投资。黄仁勋说以前创业公司的投资规模是数百万、数千万美元级别的,这一代完全不同——因为每家 AI 公司都需要海量算力。

450 家公司 — GTC 2026 的赞助商数量。1000 场技术分论坛,2000 名演讲者。黄仁勋说台下坐着的公司加起来,可能代表了全球一百万亿美元的产业。

六年前的 Ampere 云上定价还在涨 — 旧硬件在飞轮作用下不贬值反而升值。这可能是”安装基数”护城河最好的证据。

上下游生态里有 150 年历史的公司 — 从 50 年到 150 年历史不等的工业企业都加入了英伟达的供应链生态。黄仁勋说完这个数字,停下来问台下:你们去年是不是都创了营收记录?台下的反应说明确实是。他说了一句:我们正在做一件非常非常大的事情的开端。

这些数字加在一起,描述的是一次计算平台迁移正在发生的现场。

英伟达 20 年前做了一个正确的决定,然后相信它,坚持它,一代代人反复执行。到今天,这个决定的回报正在兑现。但让这个回报成为可能的那个东西——安装基数——恰恰是最难被复制的,因为复制它需要的资源叫做时间。