两个小时的演讲,最后落在了物理世界。
前面讲的 CUDA 飞轮、推理拐点、Token 工厂、Agent 战略——这些都发生在数字世界里。软件、算法、数据中心、token。但黄仁勋用了一个很清晰的框架把这一切拉到了物理世界:
Agent 可以感知、推理、行动。我之前说的大部分 Agent 都是数字 Agent——它们在数字世界里行动、推理、写软件。但我们也一直在做物理世界里的 Agent。我们管它们叫机器人。它们需要的 AI,叫物理 AI。
GTC 2026 展厅里摆了 110 台机器人。黄仁勋说他能想到的所有在做机器人的公司,几乎全都在跟英伟达合作。
自动驾驶:可行性被证明了
他在这个话题上用了一个很重的表述:
自动驾驶的 ChatGPT 时刻已经到来。我们现在知道,我们能成功地让汽车自主驾驶。
这句话的含义不是”自动驾驶已经完美了”——它的意思是可行性被证明了。就像 ChatGPT 证明了大语言模型能做有用的事(虽然它也会犯错),自动驾驶也证明了它能在真实道路上安全运行(虽然还有很多边缘场景要处理)。
他当场宣布了四个新的合作伙伴加入英伟达的无人出租车平台——比亚迪、现代、日产、极氪。加上之前已经加入的奔驰、丰田、通用——这些公司每年一共生产 1800 万辆车。
然后是 Uber。英伟达和 Uber 达成了合作——在多个城市部署无人出租车,接入 Uber 的运营网络。
他展示了一段自动驾驶的演示视频。车在真实道路上行驶,然后——车开始用语言解释自己在做什么。
我正在变道到右车道,按照我的路线行驶。
我的车道里有一辆双排停放的车。我正在绕过它。
有人问车能不能开快一点。车说:
好的,我加速。
这段演示的重点不在于”车会说话”——而在于车具备了推理能力。它能理解当前的交通场景,做出驾驶决策,然后用自然语言解释这个决策的逻辑。这就是 Alpamo(英伟达的自动驾驶模型)的核心能力——不只是感知和反应,还有推理和解释。
三台计算机
英伟达做机器人的方法论,拆开来看就是三台计算机。
第一台:训练计算机。 用海量数据训练机器人的 AI 模型——视觉感知、运动控制、语言理解、物理世界的因果推理。这部分跑在 GPU 集群上,和训练大语言模型的硬件是同一套。
第二台:模拟计算机。 这是英伟达在物理 AI 领域最独特的竞争力所在。
黄仁勋反复强调一件事:真实世界的数据永远不够。
真实世界极其多样、不可预测、充满边缘情况。真实数据永远不够用来训练所有场景。我们需要 AI 和模拟生成的数据。对机器人来说,计算就是数据。
你不可能让一个人形机器人在真实世界里摔倒一万次来学走路——太慢、太贵、太危险。但在英伟达的 Omniverse(虚拟世界引擎)里,你可以同时跑成千上万个模拟环境,让机器人在不同的地形、不同的天气、不同的障碍物条件下,反复练习行走和操作。
他提到了几个具体的模拟工具:
- Isaac Lab — 机器人训练和评估的开源平台。几乎所有展厅里的机器人公司都在用它。
- Newton — 一个 GPU 加速的可微分物理模拟器。英伟达和迪士尼研究院、DeepMind 联合开发的。“可微分”的意思是模拟器的物理计算可以被反向传播——机器人可以直接从物理模拟的结果中学习,不需要额外的标注数据。
- Cosmos — 世界基础模型。可以从视频学习物理世界的规律,然后生成新的物理场景——这就是”神经模拟”,用 AI 来模拟物理世界,速度比传统物理引擎快几个数量级。
第三台:机器人自身的计算机。 就是装在机器人身体里的嵌入式计算模块(英伟达的 Jetson 系列),实时运行推理——感知周围环境、做出决策、控制电机。
这三台计算机 + 配套的开源软件栈(训练框架、模拟器、世界模型、运动控制模型)= 英伟达的物理 AI 平台。
那只学会走路的雪人
演讲的压轴环节。
黄仁勋请出了一个实体机器人——迪士尼《冰雪奇缘》里的雪宝。
这不是主题公园里那种预录好动作的表演人偶。它是一个真正的、自主行走的、能实时对话的机器人。
它怎么学会走路的?在 Omniverse 的虚拟环境里。
英伟达和迪士尼研究院用 Newton 物理模拟器(跑在英伟达 Warp 可微分物理引擎上),在虚拟环境里给雪宝建了一个物理模型,然后让它在各种地形上练习行走——摔倒、爬起来、调整重心、适应不同的表面。训练出来的运动策略,直接部署到了真实的物理身体上。
黄仁勋在台上和它对话。雪宝走上来,晃晃悠悠的但很稳。
黄仁勋指着它的肚子说:“你的计算机在你肚子里——一台 Jetson。”
雪宝:
那是什么?
黄仁勋:“你在 Omniverse 里学会了走路。”
雪宝:
我喜欢走路!这比骑在驯鹿上面好多了。
然后黄仁勋推了它一下(轻轻的),雪宝晃了一下但没倒。黄仁勋说:“看看,这就是物理模拟的效果——它用 Newton 求解器学会了在真实世界里保持平衡。”
雪宝回了一句:
我是雪人,不是雪百科。
台下笑了很久。
这个场景很欢乐,但它背后的技术跨越是真实的:在虚拟环境中学到的物理技能,能直接迁移到现实世界的物理身体上。 虚拟和现实之间的鸿沟正在被弥合。
黄仁勋说这就是迪士尼乐园的未来——所有角色都会变成能自主行动、自主对话的机器人。想象一下,你走进迪士尼乐园,每一个角色都是活的——它认识你,能跟你聊天,能即兴表演,能自己走来走去。
这些产业有多大
黄仁勋在演讲里给物理 AI 覆盖的产业标了价。
制造业:50 万亿美元。这是全球最大的产业之一。工厂、产线、物流、仓储——整个制造业正在被机器人重新定义。ABB、库卡、Universal Robotics 这些主流工业机器人公司,全都在用英伟达的平台。他还提到卡特彼勒——连工程机械都在走向自主化。
自动驾驶:覆盖出行和物流。全球最大的几家车企已经加入了英伟达的平台。1800 万辆年产量。
电信:两万亿美元。这个很多人没想到。黄仁勋说未来的基站将不只是无线信号发射器——它会变成一个 AI 基础设施节点,在边缘端运行推理。英伟达的 Aerial 平台正在和诺基亚、T-Mobile 合作,让基站能做实时的波束赋形优化——用 AI 动态调整信号方向,节省能源、提高信号质量。他管这个叫”AI RAN”(AI 无线接入网)。
零售和消费品:35 万亿美元。供应链优化、智能购物系统、客户服务 Agent。
医疗:AI 辅助诊断、药物发现、手术机器人。黄仁勋说医疗正在经历它的”ChatGPT 时刻”——AI 生物学、AI Agent 辅助诊断、物理 AI 手术机器人,三个方向同时推进。
这些产业加在一起,物理 AI 触达的总市场规模,远超目前数字 AI 覆盖的范围。聊天机器人、编程助手——这些当然重要,但和制造业、出行、电信、医疗的体量比,它们只是开始。
四个扩展定律,加上第五个
黄仁勋在讲 Vera Rubin 系统设计的时候提到,AI 现在有四个扩展定律在同时发挥作用:
- 预训练扩展 — 更多数据、更大模型 → 更好的基础能力
- 后训练扩展 — 人类反馈、强化学习 → 更好的对齐和可靠性
- 推理扩展 — 更长的推理链、更多的思考步骤 → 更聪明的输出
- Agent 扩展 — 工具使用、多步任务、自主决策 → 从”思考”到”做事”
数字 AI 主要受这四个定律驱动。但物理 AI 还需要一个额外的维度——物理模拟数据。
黄仁勋的表述是:
对机器人来说,计算就是数据。
你有多少算力用来跑物理模拟,你就能生成多少训练数据。真实世界的数据采集受限于时间和安全(你不能让机器人在真实工厂里无限次试错),但虚拟世界的模拟可以无限并行、无限重复。
所以物理 AI 的瓶颈,最终也回到了算力。这和数字 AI 的推理拐点殊途同归——更多算力 = 更多智能。只不过物理 AI 多了一个从”虚拟训练”到”现实部署”的桥梁。
十年,4000 万倍
黄仁勋在演讲接近尾声时放了一条时间线。
2016 年 4 月 6 日——他说出了精确的日期——英伟达推出了 DGX-1,世界上第一台专门为深度学习设计的计算机。8 块 Pascal GPU,170 万亿次浮点运算。
2026 年,Vera Rubin 全系统——GPU、CPU、网络、存储、安全芯片,全部由英伟达设计,端到端优化为一台整体。
十年。计算能力提升了 4000 万倍。
摩尔定律十年大约给你 30 倍。剩下的一百多万倍来自哪里?来自系统架构(NVLink 互连从第一代演进到第六代)、来自软件优化(从 CUDA 到 Dynamo 到领域专用库)、来自制造工艺(从风冷到全液冷到 45 度热水冷却)、来自供应链协同(每周出货数千台系统级产品)。
4000 万倍背后的故事,就是”垂直整合”这四个字的具体含义。
回到开头
五篇写完了。回过头看这场演讲,黄仁勋讲了芯片、系统、软件、Agent、机器人、太空——话题跨度极大。但其实他从头到尾只在说一件事。
AI 正在从一个你偶尔打开的聊天窗口,变成支撑整个世界运转的基础设施。
它在生产 token。它在完成任务。它在驾驶汽车。它在搬运货物。它在设计芯片。它在优化工厂。它在预测天气。
一旦 AI 开始做这些事情,对算力的需求就不再取决于”有多少人想聊天”——而是取决于”有多少工作需要被完成”。后者的规模,大到看不到边。
英伟达赌的就是这件事。而他们 20 年前开始建的 CUDA 飞轮——几亿块 GPU、几十万个开源项目、上千个专用库、几百万个工程师——恰好构成了这个新世界的底层操作系统。
用 20 年做了一个决定,然后每一天都相信它,坚持到了它兑现的那天。这是最难被复制的东西——因为复制它需要的资源叫时间,而时间无法被购买。