黄仁勋GTC十月主旨演讲全文!开启AI新纪元,新工业革命的蓝图
昨晚在华盛顿特区的GTC大会上,NVIDIA创始人兼CEO黄仁勋向整个行业描绘了一幅通向新工业革命的详尽蓝图。在近两个小时的演讲中,他系统性地阐述了AI如何从根本上重塑计算范式,并发布了革命性的Blackwell平台,定义了“AI工厂”这一全新基础设施概念。这是一次产品迭代,也是一场关于未来生产力、创新乃至国家竞争力的宣言。
昨晚做了这场演讲, 英伟达的市值已经马上要突破5万亿了。
核心观点摘要
“人工智能不是一个工具,人工智能是工作。这是深刻的差异。实际上,人工智能是可以真正使用工具的工人。”
“摩尔定律已经基本终结……我们称之为极限协同设计。英伟达是当今世界上唯一一家真正从一张白纸开始,可以同时考虑新架构、新芯片、新系统和新软件的公司。”
“我这里所说的计算机就是一个工厂。它运行人工智能,其目的是为了生产尽可能有价值的代币……这绝对是一个AI工厂。”
“一方面,GB200(Blackwell)是最昂贵的计算机。另一方面,它的令牌生成能力非常强大,以至于它以最低的成本生成令牌。”
“物理AI需要三台计算机:一台用于训练模型,一台用于在数字孪生中模拟,一台用于操作机器人。这三台计算机都运行CUDA。”
“就像电力和互联网一样,人工智能是必不可少的基础设施。每家公司都会使用它。每个国家都会构建它。”
“从亚利桑那州和印第安纳州的硅片到德克萨斯州的系统,Blackwell和未来英伟达AI工厂的各个世代都将在美国制造。”
加速计算:超越摩尔定律的唯一路径
演讲的开篇,黄仁勋直指当前计算行业面临的根本性挑战:摩尔定律的终结。他指出,晶体管数量的增长已无法带来同等的性能与功耗优化。“登纳德缩放定律在大约十年前就已经停止了……那个时刻现在已经到来了。” 在这个物理定律的瓶颈期,传统CPU的顺序处理模式已难以为继。
英伟达的答案,是其耗费三十年心血构建的“加速计算”范式。黄仁勋强调,GPU本身固然重要,但其真正的护城河在于庞大而成熟的CUDA生态系统。“大多数人谈论的是GPU。GPU很重要。但是如果没有一个位于其之上的编程模型……开发者就不会以这个计算平台为目标。” 从用于芯片制造的计算光刻库CuLitho,到加速SQL的CuDF,再到医学影像的MONAI和量子计算的CuQuantum,英伟-达拥有超过350个专业库。这构成了一个强大的软件壁垒,使得各行各业的开发者能够无缝利用GPU的并行计算能力,解决通用计算无法触及的复杂问题。这不仅仅是硬件的胜利,更是生态的胜利。
“AI工厂”:新工业革命的核心基础设施
黄仁勋此前提出的最颠覆性的概念,无疑是“AI工厂”。他彻底重塑了我们对数据中心的认知。传统数据中心是信息存储和多种应用运行的通用设施,而AI工厂的目标则极为专一:生产智能。
“这绝对是一个AI工厂。它不像过去的数据中心……这个工厂只生产一种东西……那些被称为令牌的数字。” 令牌,是AI理解和生成信息的单位,可以是文字、图像、化学结构,甚至是机器人的动作。黄仁勋认为,随着AI模型从简单的预训练发展到需要大量计算进行“后训练”和实时“思考推理”,对计算资源的需求正在经历双重指数增长:一是模型本身复杂度带来的计算需求;二是模型越智能、应用越广泛,用户越多,从而产生的计算需求。
这个“良性循环”正以前所未有的压力冲击着全球的计算能力。“这个虚拟循环现在正在运转。我们需要做的是大幅降低成本,这样一来……通过降低成本来保持这个虚拟循环的运转。” 因此,“AI工厂”的终极目标,就是以最低的成本、最快的速度,生产出最智能的令牌。
Blackwell平台:极限协同设计的革命性产物
为了实现AI工厂的极致效率,英伟达推出了革命性的Blackwell平台。黄仁勋将之称为“极限协同设计”的产物,其重要性被类比为“自IBM System 360以来最彻底的计算机重塑”。
协同设计意味着英伟达不再仅仅设计芯片,而是将芯片、系统、高速互联(NVLink)、网络(Spectrum-X)乃至整个机架作为一个单一的、完整的计算单元进行设计。“你不能仅仅设计芯片,然后寄希望于它上面的东西会变得更快……我们需要复合指数,以保持这个虚拟循环的持续。” 这种全栈式的协同设计,带来了惊人的性能飞跃。黄仁勋引用第三方基准测试数据称,Grace Blackwell(GB200)的性能是上一代H200的10倍。
更关键的商业逻辑在于成本。“一方面,GB200是最昂贵的计算机。另一方面,它的令牌生成能力非常强大,以至于它以最低的成本生成令牌。” 这种极致的性价比,确保了AI“良性循环”得以持续,也让Blackwell成为全球云服务商和AI公司建设下一代AI工厂的核心引擎。
物理AI:当数字智能遇上现实世界
黄仁勋的视野并未局限于数字世界。他提出了“物理AI”的概念,即让AI理解并与物理世界互动,这标志着人工智能应用的下一个巨大浪潮。实现物理AI,需要一个全新的计算架构。“物理AI需要三台计算机。一台计算机来训练它……一台能够执行模拟的计算机……然后您就需要操作该机器人。” 这三台计算机分别是:用于训练的Blackwell超级计算机、用于在数字孪生环境中模拟和验证的Omniverse计算机,以及部署在机器人或自动驾驶汽车中的Jetson Thor机器人计算机。
这一战略构想已经催生了庞大的生态系统。在工业领域,英伟达通过Omniverse DSX平台,与西门子、富士康等企业合作,在数字孪生中设计、建造和运营机器人化工厂。在人形机器人领域,与Figure、Agility Robotics等前沿公司合作,为其提供从训练、模拟到端侧部署的全栈支持。而在自动驾驶领域,通过发布Drive Hyperion标准平台,并与Uber等巨头合作,英伟达正试图构建一个全球性的“轮式机器人”网络。这标志着AI正从云端走向现实,成为驱动实体经济变革的核心力量。
美国制造与展望未来:从Blackwell到Rubin
演讲的一个重要主题是“美国制造”。黄仁勋详细展示了Blackwell从亚利桑那州的晶圆制造,到德克萨斯州的系统组装的全过程,并强调这是对美国制造业回归和再工业化的贡献。“特朗普总统要求我的第一件事就是把制造业带回来……9个月后,我们现在在亚利桑那州全面生产Blackwell。” 这不仅是地缘政治考量下的供应链重塑,更彰显了英伟达掌控从设计到生产全链条的雄心。
而当世界还在惊叹于Blackwell的强大性能时,黄仁勋已经揭开了下一代平台——Rubin的面纱。他展示了完全无线缆、100%液冷设计的Rubin机架,并承诺将以“每年一次”的节奏进行极限协同设计系统的迭代。“在我们拆解GB300的同时,我们正在准备Rubin,以便明年这个时候投入生产。” 这种毫不松懈的创新步伐,旨在确保英伟达在AI计算领域的绝对领先地位,并持续降低令牌的生产成本。
从超越摩尔定律的加速计算,到定义新生产模式的“AI工厂”,再到连接数字与现实的物理AI,黄仁勋为英伟达乃至整个科技行业规划了一条清晰而激进的路线图。这不再是一个关于芯片的故事,而是一个关于构建新世界基础设施的宏大叙事。新工业革命的引擎已经轰鸣,而英伟达正手握方向盘。
全文整理版
美国创新的新篇章
美国,创新之地,在这里,发明塑造命运,技术助力梦想腾飞。在贝尔实验室,晶体管诞生,开启了半导体时代,并催生了硅谷。海蒂·拉玛重新构想了通信,为无线连接铺平了道路。IBM的System 360将通用计算机置于工业的核心地位。英特尔的微处理器推动了数字时代的发展。克雷的超级计算机拓展了科学的边界。所以我们认为我们正处于这项技术的开端,我们将尽可能快地前进。
苹果使计算个人化。“你好,我是Macintosh。”微软打开了通往软件新世界的窗口。早在网络出现之前,美国政府研究人员构建了阿帕网(ARPANET),连接了第一批计算机,这是互联网的基础。“一个iPod。一部电话。你明白了吗?”然后又是苹果。将一千首歌放进你的口袋,将互联网握在你的手中。
每个时代,一次飞跃。“我们选择在这个十年内登上月球并做其他的事情。不是因为它们容易,而是因为它们困难。”每次飞跃,美国领先。现在,下一个时代来临了。由一项革命性的新计算模型启动。“这很可能成为我们对计算机行业做出的最重要的贡献。”“它很可能会被认为是一场革命。”机器学习是人工智能的一个分支。几乎看起来会思考的计算机。“计算资源的数量最终将推动这个领域。”
人工智能。新的工业革命。其核心是英伟达GPU。在美国发明。就像电力和互联网一样,人工智能是必不可少的基础设施。每家公司都会使用它。每个国家都会构建它。赢得这场竞争将是对我们能力的考验,与太空时代曙光以来的一切都不同。而今天,人工智能工厂正在崛起。在美国建造。为了科学家、工程师和梦想家。横跨大学、初创企业和工业界。“我认为我们想要努力达到文明的新高度。”探索宇宙的本质。
现在,美国的创新者正在为富足扫清道路。拯救生命。将愿景塑造成现实。伸出援手。并交付未来。我们很快将用无限的清洁能源为其提供动力。我们将把人类的足迹延伸到星辰。这是美国下一个阿波罗时刻。齐心协力,我们迈出下一个伟大飞跃。大胆地去往无人之境。一切都从这里开始。
欢迎来到舞台,英伟达创始人兼首席执行官,黄仁勋。
华盛顿特区!华盛顿特区,欢迎来到GTC。很难不对美国感到感伤和自豪,我得告诉你。刚才那个视频很棒,对吧?谢谢。英伟达的创意团队做得非常出色。欢迎来到GTC,今天我们有很多内容要和大家分享。GTC是我们讨论行业、科学、计算、当下和未来的地方。所以今天我有很多内容要和大家分享。
但在开始之前,我想感谢所有帮助赞助这次盛会的合作伙伴。你会在展会上看到他们所有人。他们来这里是为了与你见面。而且非常棒的是,如果没有我们所有的生态系统合作伙伴,我们就无法完成我们所做的事情。人们说,这是人工智能的超级碗。因此,每一个超级碗都应该有一个精彩的赛前表演。你们觉得这个赛前表演怎么样?以及我们全明星的运动员和全明星阵容。看看这些人。不知何故,我变成了最健壮的。你们觉得怎么样?我不知道这是否与我有关。
加速计算:超越摩尔定律
正如你在视频中看到的,英伟达在60年来首次发明了一种新的计算模型。一种新的计算模型很少出现。这需要大量的时间和一系列的条件。我们观察到,我们发明了这个计算模型,因为我们想要解决通用计算机,即普通计算机无法解决的问题。我们还观察到,总有一天,晶体管的数量会继续增长,但是晶体管的性能和功率将会下降。摩尔定律将不会继续有效。受物理定律的限制。
那个时刻现在已经到来了。登纳德缩放定律在大约十年前就已经停止了。事实上,晶体管的性能及其相关的功率已经大幅下降。然而,晶体管的数量仍在继续增加。我们很久以前就观察到了这一点。30年来,我们一直在推进这种我们称之为加速计算的计算形式。我们发明了GPU,我们发明了名为CUDA的编程模型,并且我们观察到,如果我们能够添加一个处理器,该处理器可以利用越来越多的晶体管,应用并行计算,并将其添加到顺序处理CPU中,那么我们可以将计算能力扩展到远远超出现在的水平。
那个时刻真的到来了。我们现在已经看到了那个转折点。加速计算的时代已经到来。然而,加速计算是一种完全不同的编程模型。你不能只是把CPU软件,也就是手工编写的、顺序执行的软件,放到GPU上,然后让它正常运行。事实上,如果你只是那样做,它实际上会运行得更慢。所以你必须重新发明新的算法。你必须创建新的库。事实上,你必须重写应用程序,这也是为什么它花了这么长时间的原因。我们花了将近30年的时间才走到今天。但我们一次只处理一个领域。
这是我们公司的财富。大多数人谈论的是GPU。GPU很重要。但是如果没有一个位于其之上的编程模型,以及对该编程模型的专注,并保持其在各个世代之间的兼容性。我们现在即将推出CUDA 13,CUDA 14。数亿个GPU,运行在每一台计算机中,完全兼容。如果我们没有做到这一点,那么开发者就不会以这个计算平台为目标。如果我们没有创建这些库,那么开发者就不知道如何使用该算法,以及如何最大限度地利用该架构。一个又一个的应用。我的意思是,这确实是我们公司的宝藏。
CuLitho,计算光刻。我们花了近7年时间才用CuLitho走到今天,现在台积电使用它,三星使用它,阿斯麦使用它。这是一个令人难以置信的计算光刻库。制造芯片的第一步。用于CAE应用的稀疏求解器。CuOpt,一种打破了几乎所有记录的数值优化。旅行推销员问题。如何在供应链中将数百万种产品与数百万客户连接起来。Warp,用于CUDA的Python求解器,用于模拟。CuDF,一种DataFrame方法。基本上,加速SQL。DataFrame数据库。这个库是完全启动AI的那个。CuDNN。其上的名为Megatron Core的库使我们能够模拟和训练极其大型的语言模型。
这样的例子还有很多。MONAI,真的,真的非常重要。世界上排名第一的医学影像AI框架。顺便说一句,我们今天不会过多地谈论医疗保健,但请务必观看金伯利的主题演讲。她将会大量谈论我们在医疗保健领域所做的工作。这样的例子不胜枚举。基因组学处理。艾瑞尔,注意听讲。今天我们要在这里做一件非常重要的事情。CuQuantum,量子计算。这只是我们公司350个不同库的代表。这些库中的每一个都重新设计了加速计算所需的算法。这些库中的每一个都使所有生态系统合作伙伴能够利用加速计算。这些库中的每一个都为我们开辟了新的市场。
让我们来看看CUDA X能做什么。是不是很棒?你所看到的一切都是模拟。没有艺术,没有动画。这就是数学之美。这是深度的计算机科学,深度的数学,它令人难以置信的美妙。涵盖了每个行业。从医疗保健和生命科学到制造业、机器人技术、自动驾驶汽车、计算机图形,甚至是视频游戏。你看到的第一张照片是英伟达运行的第一个应用程序。这就是我们在1993年开始的地方。我们一直坚信我们所尝试做的事情。这花费了……很难想象你能看到第一个虚拟格斗场景变得栩栩如生,而同一家公司相信我们今天会在这里。这真是一段非常非常不可思议的旅程。我想感谢所有英伟达的员工为你们所做的一切。这真是太不可思议了。
今天我们有很多行业要介绍。我将介绍人工智能、6G、量子、模型、企业计算、机器人和工厂。让我们开始吧。我们有很多内容要介绍。有很多重大消息要宣布。很多新的合作伙伴会让你非常惊讶。
拓展新边界:从6G通信到量子计算
电信是我们经济、我们产业、我们国家安全的支柱和命脉。然而,自从无线技术诞生之初,我们定义了这项技术,我们定义了全球标准,我们将美国技术出口到世界各地,以便世界可以在美国技术和标准之上进行建设。这种情况已经很久没有发生过了。如今,世界各地的无线技术,很大程度上是建立在外国技术之上。我们建立在外国技术之上的基本通信结构。这种情况必须停止。我们有机会做到这一点。尤其是在这个根本性的平台转变时期。
如你所知,计算机技术是几乎每一个行业的基础。它是科学最重要的工具。它是工业最重要的工具。我刚才说,我们正在经历一个平台转变。那个平台转变应该是一生一次的机会,让我们重返赛场。让我们开始用美国技术进行创新。今天,我们宣布我们将这样做。我们与诺基亚建立了大型合作伙伴关系。诺基亚是世界第二大电信设备制造商。这是一个3万亿美元的产业。基础设施价值数千亿美元。世界各地有数百万个基站。如果我们能合作,我们就能在这个令人难以置信的新技术之上进行构建,它从根本上基于加速计算和人工智能。并且为了美国,为了让美国成为6G下一场革命的中心。
因此今天,我们宣布英伟达推出了一条新的产品线。它被称为英伟达ARC。空中无线电网络计算机。空中无线电接入网计算机,ARC。ARC由三项根本性的新技术构建而成。Gray CPU、Blackwell GPU,以及我们专为该应用设计的ConnectX Mellanox ConnectX网络。所有这些使得我们能够运行这个库,我之前提到的这个名为Aerial的CUDAX库。Aerial本质上是一个运行在CUDAX之上的无线通信系统。我们将首次创造一台软件定义的、可编程的计算机,它能够同时进行无线通信和人工智能处理。这是完全革命性的。我们称之为英伟达ARC。
诺基亚将与我们合作,整合我们的技术,重写他们的协议栈。这是一家拥有7000项基本必要5G专利的公司。很难想象在电信领域有比这更伟大的领导者了。所以我们将与诺基亚合作。他们将把英伟达ARC作为他们未来的基站。英伟达ARC也与AirScale兼容,AirScale是诺基亚目前的基站。这意味着我们将采用这项新技术,并能够用6G和人工智能升级全球数百万个基站。
现在,6G和人工智能非常重要,因为我们将首次能够使用人工智能技术,用于RAM的人工智能,以使无线通信的频谱效率更高。使用人工智能、强化学习,根据周围环境、交通、移动性、天气等情况,实时、有针对性地调整波束成形,所有这些都可以被考虑进来,从而提高频谱效率。频谱效率消耗了全球约1.5%到2%的电力。因此,提高频谱效率不仅可以提高我们通过无线网络传输的数据量,而无需增加必要的能量。
我们可以做的另一件事是,用于RAM的人工智能是RAM上的人工智能。这是一个全新的机会。记住,互联网实现了通信,但令人惊讶的是,像AWS这样的智能公司在互联网之上构建了一个云计算系统。我们现在将在无线电信网络之上做同样的事情。这个新的云将是一个边缘工业机器人云。这是RAM上的人工智能,第一个是用于RAM的人工智能,以提高无线电频谱效率,第二个是RAM上的人工智能,本质上是用于无线电信的云计算。云计算将能够直接延伸到边缘,即没有数据中心的地方,因为我们在世界各地都有基站。这个公告真是令人兴奋。首席执行官贾斯汀·霍达,我想他就在房间里的某个地方,感谢你们的合作。感谢你们帮助美国将电信技术带回美国。这真是一次很棒的合作。非常感谢。这是庆祝诺基亚的最佳方式。
让我们来谈谈量子计算。1981年,粒子物理学家、量子物理学家理查德·费曼设想了一种可以直接模拟自然的新型计算机。直接模拟自然,因为自然是量子的。他称之为量子计算机。40年后,该行业取得了根本性的突破。40年后,就在去年,一个根本性的突破。现在制造一个逻辑量子比特是可能的。一个逻辑量子比特。一个相干、稳定且经过纠错的逻辑量子比特。
现在,一个逻辑量子比特有时由10个,有时由数百个物理量子比特共同协作构成。正如你所知,量子比特,这些粒子非常脆弱。它们很容易变得不稳定。任何观察,任何采样,任何环境条件都会导致它失去相干性。因此,它需要极佳的可控环境,并且现在还需要许多不同的物理量子比特协同工作,以便我们对这些所谓的辅助量子比特或辛德罗姆量子比特进行误差校正,从而纠正误差并推断出逻辑量子比特的状态。有各种不同类型的量子计算机。超导、光子、囚禁离子、稳定原子,各种不同的方式来创建量子计算机。
实际上,我们现在意识到,对于我们来说,将量子计算机直接连接到GPU超级计算机至关重要,这样我们才能进行误差校正,才能对量子计算机进行人工智能校准和控制,才能共同进行模拟。正确的算法在GPU上运行,正确的算法在QPU上运行,这两个处理器,两台计算机并肩工作。这就是量子计算的未来。
有许多方法可以构建量子计算机。每种方法都使用量子比特(量子位)作为其核心构建块。但无论采用何种方法,所有量子比特,无论是超导量子比特、囚禁离子、中性原子还是光子,都面临着相同的挑战。它们很脆弱,并且对噪声极其敏感。今天的量子比特只能在几百次操作中保持稳定。但解决有意义的问题需要数万亿次操作。答案是量子纠错。测量会干扰量子比特,从而破坏其中的信息。诀窍是添加额外的纠缠量子比特,这样测量它们就能给我们足够的信息来计算出错误发生的位置,而不会损坏我们关心的量子比特。这很棒,但需要超越当前最先进的传统计算。这就是我们构建NVQ Link的原因,这是一种新的互连架构,可将量子处理器与NVIDIA GPU直接连接。量子纠错需要从量子比特中读取信息,计算出错误发生的位置,并将数据发回以纠正它们。NVQ Link能够每秒数千次地将太字节的数据发送到量子硬件并从中接收,这是量子纠错所必需的。其核心是CUDAQ,我们用于量子GPU计算的开放平台。利用NVQ Link和CUDAQ,研究人员将能够做的不仅仅是纠错。他们还将能够协调量子设备和人工智能超级计算机来运行量子GPU应用程序。量子计算不会取代经典系统。它们将融合在一起,成为一个加速的量子超级计算平台。
哇,这真是一个很长的阶段。你知道,首席执行官们,我们不仅仅是坐在办公桌前打字。这是一项体力活。所以今天,我们宣布NVQ Link。而这由两件事促成。当然,这种互连可以进行量子计算机控制和校准、量子纠错,以及连接两台计算机,即QPU和我们的GPU超级计算机,以进行混合模拟。它也完全可扩展。它不仅仅为今天少量量子比特的数量进行纠错。它为未来进行纠错,在未来,我们将从今天拥有的数百个量子比特,扩展到未来的数万个量子比特,数十万个量子比特。因此,我们现在有了一个可以进行控制、协同模拟、量子纠错并扩展到未来的架构。
在 CUDA Q 发明之后,行业支持令人难以置信。请记住,CUDA 是为 GPU、CPU、加速计算而设计的。基本上,使用两个处理器来使用正确的工具来完成正确的工作。现在,CUDA Q 已经扩展到 CUDA 之外,以便我们可以支持 QPU,并让两个处理器,QPU 和 GPU,协同工作,并在几微秒内来回移动计算。这是与量子计算机合作的必要延迟。因此,现在,CUDA Q 是一个令人难以置信的突破,被许多不同的开发者采用。我们今天宣布有 17 家不同的量子计算机行业公司支持 NVQ 链路。而且,我对此感到非常兴奋,有 8 个不同的美国能源部 (DOE) 实验室。伯克利、布鲁克海文、芝加哥费米实验室、林肯实验室、洛斯阿拉莫斯、橡树岭、太平洋西北、圣地亚哥国家实验室。几乎每一个能源部实验室都与我们合作,与我们的量子计算机公司和这些量子控制器生态系统合作,以便我们可以将量子计算整合到科学的未来中。
好的,我还有一个额外的声明要宣布。今天,我们宣布能源部正在与英伟达合作,建造7台新的AI超级计算机,以推进我们国家的科学发展。我必须向克里斯·赖特部长致敬。他为能源部带来了如此多的活力。一股能量的涌动,一股热情的涌动,以确保美国再次引领科学。正如我所提到的,计算是科学的基本工具,我们正在经历几个平台转变。一方面,我们将加速计算,这就是为什么未来每一台超级计算机都将是基于GPU的超级计算机。我们将走向人工智能,这样人工智能和基于原理的求解器、基于原理的模拟、基于原理的物理模拟不会消失,但它可以被增强、强化、扩展,使用替代模型、人工智能模型协同工作。我们也知道,基于原理的求解器,经典计算,可以被增强,以使用量子计算来理解自然状态。我们也知道,在未来,我们有如此多的信号,如此多的数据需要从世界中采样,遥感比以往任何时候都更加重要。这些实验室不可能以我们需要的规模和速度进行实验,除非它们是机器人工厂,机器人实验室。所以所有这些不同的技术都在完全相同的时间进入科学领域。赖特部长理解这一点,他希望能源部抓住这个机会,增强自身能力,并确保美国保持在科学的最前沿。我想感谢你们所有人。谢谢。
人工智能的本质:新计算堆栈与AI工厂
让我们来谈谈人工智能。什么是人工智能?大多数人会说人工智能是一个聊天机器人,这是理所当然的。毫无疑问,ChatGPT 处于人们认为的人工智能的最前沿。然而,正如你现在所看到的,这些科学超级计算机不会运行聊天机器人。它们将进行基础科学研究。科学、人工智能,人工智能的世界,远远不止一个聊天机器人。当然,聊天机器人极其重要,而通用人工智能从根本上来说至关重要。深入的计算机科学、强大的计算能力、伟大的突破对于通用人工智能仍然是必不可少的。但除此之外,人工智能还有更多。
事实上,我将用几种不同的方式来描述人工智能。你思考人工智能的第一种方式是,它已经彻底改造了计算堆栈。我们过去做软件的方式是手工编码。手工编码的软件运行在CPU上。如今,人工智能是机器学习、训练、数据密集型编程(如果你愿意这么称呼),由运行在GPU上的人工智能训练和学习。为了实现这一点,整个计算堆栈都发生了变化。注意到这里没有Windows。这里没有CPU。你看到的是一个完全不同的堆栈。
对于能源的需求,我们特朗普总统的政府在这方面功不可没。他的亲能源倡议,他认识到这个行业需要能源才能发展。它需要能源来发展,我们需要能源来取胜。他认识到这一点,并将国家的力量放在支持能源增长上,彻底改变了游戏规则。如果没有发生这些,我们可能已经陷入困境,我想为此感谢特朗普总统。
在能源之上是这些GPU,这些GPU连接到,构建到我稍后将向您展示的基础设施中。在这个基础设施之上,它由巨大的数据中心组成,很容易就是这个房间的许多倍大。大量的能源通过这种称为GPU超级计算机的新机器转换能源以生成数字。这些数字被称为令牌。如果你愿意,这就是语言,计算单元,人工智能的词汇。你几乎可以对任何事物进行标记化。当然,你可以对英语单词进行标记化。你可以对图像进行标记化。这就是你能够识别或生成图像的原因。标记化视频。标记化3D结构。你可以对化学物质、蛋白质和基因进行标记化。你可以对细胞进行标记化。对几乎任何具有结构的事物,任何具有信息内容的事物进行标记化。一旦你可以对其进行标记化,人工智能就可以学习该语言及其含义。一旦它学会了那种语言的含义,它就能翻译,就能像你与chatGPT互动一样做出回应,并且能像chatGPT一样生成内容。你看到chatGPT做的所有基本的事情,你所要做的就是想象如果它是一个蛋白质会怎样?如果它是一种化学物质会怎样?如果它是一个像工厂一样的3D结构会怎样?如果它是一个机器人会怎样?如果令牌是理解行为并标记运动和动作会怎样?所有这些概念基本上是相同的。这就是人工智能取得如此非凡进展的原因。
在这些模型之上是应用。Transformer并非通用模型。这是一个非常有效的模型,但没有万能的模型。只是人工智能具有普遍的影响。有非常多种不同类型的模型。在过去的几年里,我们享受了多模态的发明,并经历了其创新突破。有非常多种不同类型的模型。有卷积神经网络(CNN)模型、组合神经网络模型、状态空间模型、图神经网络模型、当然还有多模态模型,以及我刚才描述的所有不同的分词和令牌方法。你可以拥有在空间理解方面进行优化,从而为空间感知优化的模型。你可以拥有为长序列优化,在很长一段时间内识别微妙信息的模型。有非常多种不同类型的模型。
在这些模型架构之上,是各种应用。过去的软件,这是一个深刻的理解,对人工智能的一个深刻观察,即过去的软件行业是关于创造工具的。Excel是一个工具。Word是一个工具。网页浏览器是一个工具。我知道这些是工具的原因是因为你在使用它们。工具行业只有螺丝刀和锤子。工具行业只有这么大。在IT工具的例子中,它们可以是数据库工具,这些IT工具大约价值一万亿美元左右。但人工智能不是一个工具。人工智能是工作。这就是深刻的差异。实际上,人工智能是可以真正使用工具的工人。我真正感到兴奋的事情之一是埃尔文在Perplexity所做的工作。Perplexity使用网络浏览器来预订假期或进行购物,基本上就是人工智能使用工具。Cursor是一个人工智能,一个我们在英伟达使用的巨大的人工智能系统。英伟达的每一位软件工程师都在使用Cursor。它极大地提高了我们的生产力。它基本上是我们每一位软件工程师生成代码的伙伴。而且它使用一个工具。它使用的工具叫做VS Code。所以Cursor是一个人工智能,一个使用VS Code的巨大人工智能系统。
那么,所有这些不同的行业,这些不同的行业,无论是聊天机器人还是数字生物学(我们在其中有AI辅助研究人员),或者什么是自动驾驶出租车?在自动驾驶出租车里,当然它是不可见的,但显然有一个人工智能司机。那位司机正在工作。而他用来做这项工作的工具是汽车。所以我们直到现在所创造的一切,整个世界,我们直到现在所创造的一切都是工具。供我们使用的工具。有史以来第一次,技术现在能够从事工作,并帮助我们提高生产力。机会清单还在不断增加,这就是为什么人工智能涉及了信息技术从未涉及的经济领域。信息技术是几万亿美元的产业,它位于一个价值一百万亿美元的全球经济体的各种工具之下。现在,人工智能将首次参与到这个价值一百万亿美元的经济体中,并使其更具生产力。使其增长更快,规模更大。我们正面临严重的劳动力短缺,拥有能够增强劳动力的人工智能将有助于我们的增长。
现在从科技行业的角度来看,有趣的是,除了人工智能是解决经济新领域的新技术之外,人工智能本身也是一个新兴产业。正如我之前解释的那样,这个令牌,在您对所有这些不同的信息模态进行分词之后,需要有一个工厂来生成这些数字。与过去的计算机行业和芯片行业不同,请注意,如果您看看过去的芯片行业,芯片行业仅占数万亿美元,或者数万亿美元IT产业的百分之五到百分之十,甚至更少,大约百分之五。原因是使用Excel不需要太多的计算。使用浏览器不需要太多的计算。使用Word不需要太多的计算。我们进行计算。
但在这个新世界中,需要一台始终理解上下文的计算机。它无法预先计算。因为每次您使用计算机进行人工智能时,每次您要求人工智能做某事时,上下文都是不同的。所以它必须处理所有这些信息。例如,在自动驾驶汽车的情况下,它必须处理汽车的上下文。上下文处理。你要求人工智能执行的指令是什么?然后它必须逐步分解问题,进行推理,制定计划并执行它。每个步骤都需要生成大量的令牌,这就是我们需要新型系统的原因,我称之为人工智能工厂。
这绝对是一个人工智能工厂。它不像过去的data center(数据中心)。它是一个人工智能工厂,因为这个工厂只生产一种东西。与过去的data center(数据中心)不同,它无所不能,为我们所有人存储文件,运行各种不同的应用程序,你可以像使用电脑一样使用该data center(数据中心)来处理各种应用程序。你可以用它来玩游戏,可以用它来浏览网页,可以用它来做会计。所以那是过去的计算机,一种通用的通用计算机。我这里所说的计算机就是一个工厂。它基本上只运行一件事,它运行人工智能,其目的是为了生产尽可能有价值的令牌,这意味着它们必须足够智能。而且你希望以惊人的速度生产这些令牌,因为当你向人工智能提出要求时,你希望它能做出回应。注意到在高峰时段,这些人工智能的回应速度越来越慢,因为它需要为很多人做很多工作。所以你希望它以惊人的速度生产有价值的令牌,并且你希望它以具有成本效益的方式生产。我使用的每一个词都与人工智能工厂、汽车工厂或任何工厂相符。它绝对是一个工厂。这些工厂,这些工厂以前从未存在过。在这些工厂内部,堆积如山的都是芯片。
良性循环:驱动AI计算需求的指数级增长
这就引出了今天过去几年里发生的事情。事实上,去年发生了什么?实际上,今年发生了一些相当深刻的事情。如果你观察,在年初,每个人对人工智能都有一些看法。这种看法通常是,它将会变得很重要,它将会是未来,而且不知何故,几个月前,它进入了涡轮增压状态。这样做的原因有几个。首先,在过去的几年里,我们已经弄清楚如何让人工智能变得更聪明。而不是仅仅进行预训练,预训练基本上是说,让我们把人类创造的所有信息都拿来,让AI从中学习。这本质上是记忆和泛化。这和我们小时候上学没什么不同。这是学习的第一个阶段。预训练从来不意味着,就像学前班从来不意味着是教育的终点一样。预训练,就像学前教育,仅仅是教你智力的基本技能,以便你理解如何学习其他一切。没有词汇,没有对语言和如何沟通、如何思考的理解,就不可能学习其他一切。
下一步是后训练。在预训练之后的后训练是教你技能。解决问题、分解问题、推理的技能,如何解决数学问题,如何编程,如何逐步思考这些问题,使用第一性原理推理。然后在那之后,计算才真正开始发挥作用。如你所知,我们中的许多人都上过学,就我而言,那是几十年前的事了。但从那以后,我学到了更多,思考了更多,原因是,我们不断地将自己置于新的知识中,我们不断地进行研究,我们不断地思考。思考确实是智力的全部。
因此,现在我们有了三种基本的技术技能。我们有这三种技术:预训练,它仍然需要大量的计算。我们现在有后训练,它使用甚至更多的计算。现在,思考会给基础设施带来难以置信的计算负载,因为它代表每个个体进行思考。因此,人工智能思考推理所需的计算量确实非常巨大。现在,我过去常听到人们说推理很容易。英伟达应该做训练。英伟达将会做,你知道,他们真的很擅长这个,所以他们将会做训练。推理很容易。思考怎么会容易呢?反刍记忆的内容很容易。背诵乘法表很容易。思考很难,这也是为什么这三个尺度,这三个新的尺度定律,所有这些都在全力推进,给计算量带来了如此大的压力。
现在,又发生了一件事。从这三个尺度定律,我们得到了更智能的模型。这些更智能的模型需要更多的计算。但是当你得到更智能的模型时,你获得了更多的智能,人们会使用它……好像无论发生什么,我都想第一个出去。开玩笑而已。我相信没事。可能只是午饭。我的胃。刚才是我吗?
那么我刚才说到哪儿了?你的模型越智能,使用的人就越多。现在更接地气了。它能够推理。它能够解决以前从未学过的难题,因为它能做研究。去学习相关知识,回来,分解问题,推理如何回答你的问题,如何解决你的难题,然后去解决它。思考的量正在使模型变得更智能。它越智能,使用的人就越多。智能化程度越高,所需的计算就越多。
但事情是这样的。去年,人工智能行业迎来了一个转折点。这意味着人工智能模型现在足够智能,它们正在创造价值,它们值得付费。英伟达为每个Cursor的许可证付费,而且我们很乐意这样做。我们很乐意这样做,因为Cursor正在帮助一位年薪数十万美元的员工,无论是软件工程师还是人工智能研究员,提高数倍的生产力。所以我们当然非常乐意这样做。这些人工智能模型已经变得足够好,值得付费。Cursor、11 Labs、Synthasia、Abridge、Open Evidence,这样的例子不胜枚举。当然,Open AI,当然还有Cloud。这些模型现在非常好,人们愿意为之付费。
并且因为人们正在为它付费并更多地使用它,而且每次他们更多地使用它,你就需要更多的计算资源,我们现在有了两个指数增长。这两个指数增长,一个是三缩放定律带来的指数级计算需求。第二个指数增长是,人越多,它就越智能,越多的人使用它,越多的人使用它,它就需要越多的计算资源。这两个指数增长正在给世界的计算资源带来压力。正好发生在我之前告诉过你的摩尔定律已经基本终结的时候。所以问题是,我们该怎么办?
如果我们有这两个指数级的需求增长,如果我们不,如果我们找不到降低成本的方法,那么这个正反馈系统,这个循环反馈系统,本质上被称为良性循环,这对于几乎所有行业都是至关重要的。对于任何平台行业都至关重要。这对英伟达至关重要。我们现在已经进入了CUDA的良性循环。应用程序越多,人们创建的应用程序越多,CUDA就越有价值,CUDA越有价值,购买的CUDA计算机就越多,购买的CUDA计算机越多,就越多的开发者想要为其创建应用程序。英伟达在30年后终于实现了那个虚拟循环。我们也已经实现了这一点。15年后,我们为人工智能实现了这一点。人工智能现在已经进入了虚拟循环。
因此,你使用得越多,因为人工智能很聪明,而且我们为此付费,产生的利润就越多,产生的利润越多,投入到网格计算中的计算力就越多,投入到人工智能工厂中的计算力就越多,计算力越多,人工智能就变得越聪明,越聪明就越多人使用它,更多应用程序使用它,我们就能解决更多问题。这个虚拟循环现在正在运转。我们需要做的是大幅降低成本,这样一来,当你提示人工智能时,用户体验会更好,它能更快地响应你;二来,通过降低成本来保持这个虚拟循环的运转,这样它就能变得更聪明,这样更多人使用它,诸如此类,等等。那个虚拟循环现在正在运转。
Blackwell平台:极限协同设计的革命
但是当摩尔定律实际上已经达到极限时,我们该如何做到这一点呢?嗯,答案叫做协同设计。你不能仅仅设计芯片,然后寄希望于它上面的东西会变得更快。设计芯片时,你能做的最好的事情就是在几年内增加,我不知道,50% 更多的晶体管。如果你增加了更多的晶体管,只是,你知道,我们可以增加更多的晶体管,而且台积电有很多晶体管,一家令人难以置信的公司。我们将继续增加更多的晶体管。然而,这些都是百分比,而不是指数。我们需要复合指数,以保持这个虚拟循环的持续。
我们称之为极端协同设计。英伟达是当今世界上唯一一家真正从一张白纸开始,并且可以同时考虑新的基础计算机架构、新的芯片、新的系统、新的软件、新的模型架构和新的应用的公司。在这个房间里的很多人来到这里,是因为你是这个层级中不同的部分,与英伟达合作的堆栈中不同的部分。我们从根本上自下而上地重新构建一切。然后,因为人工智能是一个如此大的问题,我们将其规模扩大。我们创造了一台完整的计算机,一台首次扩展到整个机架的计算机。那是一台计算机,一个GPU。然后,我们通过发明一种新的AI以太网技术来扩展它,我们称之为Spectrum X以太网。每个人都会说,以太网就是以太网。以太网根本就不是那么回事。以太网,Spectrum X以太网是为AI性能而设计的,这也是它如此成功的原因。
即使那样还不够大。我们将用AI超级计算机和GPU填满整个房间。这仍然不够大,因为AI的应用数量和用户数量正在持续呈指数级增长。我们将多个这样的数据中心连接在一起,我们称之为跨规模扩展。Spectrum XGS。千兆级规模。Spectrum X千兆级规模。XGS。通过这样做,我们在如此巨大的规模、如此极端的水平上进行协同设计,其性能优势令人震惊。不是每一代都提升50%。不是每一代提升25%。而是更多,更多得多。这是我们有史以来制造的,坦率地说,也是现代制造的最极致的协同设计计算机。自IBM System 360以来,我不认为有任何一台计算机像这样被彻底地重新发明过。这个系统的创造极其困难。我马上会向你展示它的好处。
但本质上我们所做的,本质上我们所做的,我们创造了……嗨,Janine,你可以出来了。你得走到我这里,差不多一半的路程。好了,这有点像美国队长的盾牌。因此,NVLink 72,如果我们创建一个巨大的芯片,一个巨大的GPU,它看起来会是这样。这就是我们必须进行的晶圆级处理水平。太不可思议了。所有这些芯片现在都被放入一个巨大的机架中。是我做的还是别人做的?进入那个巨大的机架,你知道,有时我觉得我不是一个人在这里。这个巨大的机架使所有这些芯片作为一个整体协同工作。这实际上是完全不可思议的。我会向你展示它的好处。所以,谢谢珍妮。我喜欢这个。好了,女士们先生们,珍妮·保罗。我明白了。将来,下次我就要像索尔那样行动。就像你在家,够不着遥控器,然后你就这样示意一下,有人把它递给你一样,是的,就是这个意思。这种事从没发生在我身上。我只是在做梦。我只是说说而已。
好的,总之,基本上,这是我们过去创造的东西。这是MVLink 8。现在,这些模型非常庞大,我们解决这个问题的方法是将这个模型,这个巨大的模型变成一大堆专家。这有点像一个团队。所以,这些专家擅长处理某些类型的问题。我们把一大堆专家聚集在一起。所以,这个价值数万亿美元的巨型人工智能模型拥有所有这些不同的专家,我们将所有这些不同的专家都放在GPU上。现在,这是MVLink 72。我们可以把所有的芯片都放进一个巨大的结构中,每个专家都可以互相交流。所以,主专家,也就是主要的专家,可以和所有的工作以及所有必要的上下文、提示以及我们必须发送给所有专家的一堆数据,一堆令牌进行交流。专家们会,无论哪个专家被选中来解决答案,都会开始尝试回应。然后它会一层又一层地进行下去。有时是8个,有时是16个,有时这些专家有时是64个,有时是256个。但关键是专家越来越多。
那么,在这里,MVLink 72,我们有72个GPU。正因为如此,我们可以在1个GPU中放入4个专家。对于每个GPU,你需要做的最重要的事情是生成令牌,这是你在HBM内存中拥有的带宽量。我们有1个GPU为4位专家生成思考内容。相比之下,这里因为每台计算机只能放置8个GPU,我们必须将32位专家放入1个GPU。因此,这个1个GPU必须为32位专家思考,而这个系统每个GPU只需要为4位专家思考。正因为如此,速度差异令人难以置信。
这才刚刚发布。这是Semi-Analysis做的基准测试。他们做了一项非常、非常彻底的工作。他们对所有可以进行基准测试的GPU都进行了基准测试。结果发现数量并不多。如果你查看可以实际进行基准测试的GPU列表,会发现大约90%是NVIDIA。所以我们是在和自己比较,但世界上第二好的GPU是H200,它可以运行所有工作负载。Grace Blackwell每个GPU的性能是其10倍。现在,当晶体管数量只有两倍时,你如何获得10倍的性能?答案是极端协同设计。通过理解人工智能模型未来的本质,我们在整个堆栈中进行思考,我们可以为未来创建架构。这是一件大事。
它表明我们现在可以更快地做出反应,但这甚至是一件更大的事。下一个。看看这个。这表明世界上成本最低的令牌是由Grace Blackwell和NVLink72生成的。最昂贵的计算机。一方面,GB200是最昂贵的计算机。另一方面,它的令牌生成能力非常强大,以至于它以最低的成本生成令牌。因为每秒token数除以Grace Blackwell的总拥有成本非常划算。这是生成token的成本最低的方式。这样做可以提供令人难以置信的性能,是原有性能的10倍,成本降低到原来的1/10,这种良性循环得以继续。
美国制造:重塑全球AI供应链
这就引出了下一个话题。我昨天才看到这个。这是CSP的资本支出(CapEx)。最近人们一直在问我关于资本支出(CapEx)的问题,这是一个很好的观察角度。事实上,排名前6的CSP的资本支出,这6家分别是亚马逊、CoreWeave、谷歌、Meta、微软和甲骨文。这些CSP加起来将在资本支出方面投资这么多。我认为现在的时机再好不过了。原因是现在我们已经全面量产Grace Blackwell NVLink 72,全球各地的供应链都在生产。因此,我们现在可以向他们所有人交付这种新架构,以便资本支出投资于能够提供最佳TCO(总拥有成本)的仪器计算机。
在这之下,有两件事情正在发生。所以当你看到这些时,它实际上非常非凡。无论如何,这都相当非凡。但下面发生的事情是这样的。有两个平台转型同时发生。一个平台转型是从通用计算到加速计算。记住,正如我之前向你提到的,加速计算可以进行数据处理,图像处理,计算机图形,它可以进行各种计算。它可以运行SQL,它可以运行Spark,你知道,你问它,你告诉我们需要运行什么,我相当肯定我们为你准备了一个很棒的库。你可能是一个试图制造掩模来制造半导体的数据中心。我们为你准备了一个很棒的库。因此,在不考虑人工智能的情况下,世界正在从通用计算转向加速计算。暂且不论人工智能。
事实上,许多云服务提供商(CSPs)早已拥有在人工智能出现之前就已存在很久的服务。记住,它们是在机器学习时代发明的。像XGBoost这样的经典机器学习算法。像DataFrames这样用于推荐系统的算法。协同过滤,内容过滤。所有这些技术都是在通用计算的旧时代创造的。即使是这些算法,即使是这些架构,现在通过加速计算也变得更好。因此,即使没有人工智能,世界各地的云服务提供商(CSPs)也会投资于加速。英伟达的GPU是唯一能够完成所有这些以及人工智能的GPU。而ASIC可能能够做人工智能,但它无法做任何其他的。英伟达可以完成所有这些。这解释了为什么仅仅依靠英伟达的架构是如此安全。
我们现在已经到达了我们的虚拟周期,我们的转折点。这非常不寻常。我在房间里有很多合作伙伴,你们都是我们供应链的一部分,我知道你们工作有多努力。我要感谢你们所有人。你们工作有多努力。非常感谢。现在我将向你们展示原因。这就是我们公司业务的现状。由于我刚才提到的所有原因,我们看到了Grace Blackwell的非凡增长。它由两个指数增长驱动。我们现在有了可见性。我认为我们可能是历史上第一家能够看到累计5000亿美元的Blackwell以及到2026年Rubin早期增长的技术公司。如您所知,2025年尚未结束,2026年尚未开始。这就是账面上的业务量。迄今为止,价值5000亿美元。其中,我们已经在最初的几个季度,我想是最初的4个季度,或者说是3个半季度的生产中,交付了600万个Blackwell。2025年我们还有一个季度,然后我们有四个季度。接下来的五个季度,有5000亿美元。5000亿美元。
这是Hopper增长率的5倍。这在某种程度上说明了一些问题。这是 Hopper 的一生。这不包括中国和亚洲。这仅仅是西方。我们排除中国。Hopper,在其整个生命周期中,400万个GPU,Blackwell,每一个Blackwell在一个大型封装中都有两个GPU。在 Rubin 的早期阶段有 2000 万个 Blackwell 的 GPU。惊人的增长。我要感谢我们所有的供应链合作伙伴,所有人。我知道你们有多努力。我制作了一个视频来庆祝你们的工作。让我们播放它。
人工智能时代已经开始。Blackwell 是它的引擎。一项工程奇迹。在亚利桑那州,它始于一块空白的硅晶圆。数百道芯片处理和紫外光刻步骤构建起每个2000亿个晶体管。在12英寸晶圆上一层又一层地堆叠。在印第安纳州,HBM堆栈将被并行组装。具有1024个I/O端口的HBM内存芯片采用先进的EUV技术制造。硅通孔用于后端,将12个HBM内存堆栈和基底芯片连接起来以生产HBM。同时,晶圆被划片成单独的Blackwell芯片,经过测试和分类。分离出好的芯片以继续前进,芯片在晶圆上再到基板上的工艺将32个Blackwell芯片和128个HBM堆栈连接到定制的硅中介层晶圆上。金属互连线直接蚀刻到其中,将Blackwell GPU和HBM堆栈连接到每个系统和封装单元中,并将所有东西锁定到位。然后,将该组件进行烘烤、模塑和固化,从而创建GB300 Blackwell Ultra超级芯片。
在德克萨斯州,机器人将全天候工作,在Grace Blackwell PCB上拾取并放置超过10,000个组件。在加利福尼亚州,用于横向扩展通信的ConnectX 8 SuperNIC和用于卸载和加速网络、存储和安全的Bluefield 3 DPU被仔细地组装到GB300计算托盘中。NVLink是英伟达发明的突破性高速链路,用于连接多个GPU并扩展成一个大型虚拟GPU。NVLink交换机托盘由NVLink交换机芯片构成,提供每秒14.4太字节的全部互联带宽。NVLink主干形成一个定制的盲插背板,用5,000根铜缆将所有72个Blackwell或144个GPU芯片连接成一个巨大的GPU,提供每秒130太字节的全部互联带宽,几乎相当于全球互联网的峰值流量。熟练的技术人员将每个部件组装成一个机架级AI超级计算机。总共有120万个组件,2英里的铜缆,130万亿个晶体管,重约2吨。
从亚利那州和印第安纳州的硅片到德克萨斯州的系统,Blackwell和未来英伟达AI工厂的各个世代都将在美国制造。书写美国历史和工业的新篇章,美国回归制造和再工业化。被人工智能时代重新点燃。人工智能时代已经开始。美国制造。为世界制造。
我们再次在美国进行制造。这真是不可思议。特朗普总统要求我的第一件事就是把制造业带回来。把制造业带回来,因为它对国家安全至关重要。把制造业带回来,因为我们需要就业机会,我们需要那部分经济。9个月后,9个月后,我们现在在亚利那州全面生产Blackwell。
展望未来:下一代平台Rubin
极限Blackwell,GB200,Grace Blackwell,NVLink 72,极限协同设计使我们获得了10倍的代际提升。这真是太不可思议了。现在真正令人难以置信的部分是这个。这是我们制造的第一台人工智能超级计算机。这是在2016年,当时我把它交付给旧金山的一家初创公司,后来发现那是OpenAI。这就是那台计算机。为了制造那台计算机,我们设计了一款芯片。我们设计了一款新的芯片。为了我们现在进行协同设计,看看我们要做的所有芯片。这就是所需的。你不可能只用一块芯片就让计算机速度提高10倍。这是不可能发生的。让我们能够以指数方式不断提高性能,以指数方式不断降低成本,从而让计算机速度提高10倍的方法是极限协同设计,以及同时开发所有这些不同的芯片。
现在鲁本回家了。这是鲁本。这是维拉·鲁本和鲁本。女士们先生们,鲁本。这是我们的第三代NVLink 72机架规模计算机。第三代。GB200是第一个。我们在世界各地的所有合作伙伴,我知道你们有多努力。这极其困难。做成这件事极其困难。第二代,顺畅多了。还有这一代,看看这个。完全无线缆。完全无线缆。而现在,所有这些都回到了实验室。这是下一代鲁本。在我们拆解GB300的同时,我们正在准备鲁本,以便明年这个时候投入生产,也许会稍早一些。因此,我们每年都会推出最极致的协同设计系统,以便我们能够不断提高性能,并不断降低token生成成本。看看这个。这真是一台极其漂亮的计算机。
所以这太棒了。这是100千万亿次浮点运算。我知道这没什么意义。100千万亿次浮点运算。但与我10年前,9年前交付给OpenAI的DGX-1相比,它的性能是其100倍。就在这里,相比之下是那台超级计算机的100倍。100个那种设备的100倍,让我想想,100个那种设备相当于25个这样的机架,全部被这一个东西取代了。一个维拉·鲁宾。
好的,这是计算托盘,这是维拉·鲁宾的超级芯片。好的,这是计算托盘,就在这里。它非常容易安装,只需打开这些东西,把它推进去,甚至我都能做到。这是维拉·鲁宾计算托盘。如果你决定要添加一个特殊的处理器,我们已经添加了另一个处理器,它被称为上下文处理器,因为我们给人工智能提供的上下文量越来越大。我们希望它在回答问题之前阅读大量的PDF。我们希望它阅读大量的档案论文,观看大量的视频,在你回答我的问题之前学习所有这些东西。所有这些上下文处理都可以添加。所以你看到底部有8个ConnectX 9新型SuperNIC,你有CPX,8个,你有Bluefield 4,这个新的数据处理器,2个维拉CPU,和4个鲁宾封装或8个鲁宾GPU。所有这些都在这一个节点中,完全无电缆,100%液冷。
然后是这个新的处理器,今天我不会谈太多,我没有足够的时间,但这是完全革命性的。这样做的原因是,你的人工智能需要拥有越来越多的内存。你会更多地与之互动,你希望记住我们上次的对话,所有你为了我学习的东西,下次我回来时请不要忘记。因此,所有这些记忆将创建一种叫做KV缓存的东西,而这种KV缓存,检索它,你可能已经注意到,现在每次进入你的AI,刷新和检索所有之前的对话需要越来越长的时间。这样做的原因是我们需要一种革命性的新处理器,它叫做Bluefield 4。
接下来是ConnectX交换机,抱歉,是NVLink交换机,就在这里。好的,这是NVLink交换机,它使我们能够将所有计算机连接在一起,并且该交换机的带宽是当今世界互联网流量峰值的数倍。因此,这个骨干网络将同时通信并将所有数据传输到所有GPU。最重要的是,这是Spectrum X交换机,而这款以太网交换机的设计目的是使所有处理器可以同时相互通信,而不会阻塞网络。阻塞网络,这非常技术性。
好的,这些是,这三个组合在一起,然后这是量子交换机。这是用于InfiniBand的,这是以太网,我们不在乎你想使用哪种语言,无论你喜欢使用什么标准,我们都为你提供了出色的横向扩展结构,无论是InfiniBand,还是量子,还是Spectrum。以太网,这个使用了硅光子技术,并且是完全共封装的选项。基本上,激光直接照射到硅片上,并将其连接到我们的芯片。好的,这是Spectrum X以太网,现在让我们来谈谈,谢谢,哦,这就是它的样子。这是一个机架。这是2.5,这是2,这是2吨,150万个零件,而主干,就是这个主干,在一秒钟内承载着整个互联网的流量。相同的速度,将其移动到所有这些不同的处理器上。100%液体冷却。所有这些都是为了,你知道,世界上最快的令牌生成速率。
好的,这就是机架的样子。现在,那是一个机架。一个千兆瓦的数据中心将拥有,你知道,就叫它,让我想想,16个机架是1000,然后是500个这样的。所以不管怎样,500乘以16。所以,算它有9000个这样的,8000个这样的就构成一个千兆瓦的数据中心。好吗?所以这就是未来的AI工厂。
AI工厂生态系统:Omniverse DSX蓝图
现在,正如你所注意到的,我们,英伟达最初是从设计芯片开始的,然后我们开始设计系统,我们设计了AI超级计算机。现在我们正在设计整个AI工厂。每一次我们向外拓展,整合更多要解决的问题,我们就能提出更好的解决方案。我们现在构建整个AI工厂。这个,这个AI工厂就是我们为维拉·鲁宾建造的,而且我们创造了一种技术,使我们所有的合作伙伴都能以数字化的方式整合到这个工厂中。让我展示给你们看。
下一次工业革命已经到来。随之而来的是一种新型工厂。人工智能基础设施是一项生态系统级别的挑战,需要数百家公司合作。NVIDIA Omniverse DSX 是构建和运营千兆级人工智能工厂的蓝图。这是首次将建筑、电力和冷却系统与 NVIDIA 的人工智能基础设施堆栈共同设计。它始于 Omniverse 数字孪生。Jacobs Engineering 优化计算密度和布局,以根据功率约束最大化令牌生成。他们将来自西门子、施耐德电气、特灵和维谛的 SIM 就绪 OpenUSD 资产整合到 PTC 的产品生命周期管理中。然后使用来自 eTap 和 Cadence 的 CUDA 加速工具模拟热工和电气特性。设计完成后,NVIDIA 的合作伙伴(如 Bechtel 和 Vertiv)交付预制模块,这些模块在工厂中构建、测试并准备好插入。这大大缩短了构建时间,从而更快地实现收入。当物理人工智能工厂上线时,数字孪生充当操作系统。工程师们提示来自Phydra和Emerald AI的AI代理,这些代理之前已经在数字孪生中接受过训练,以优化功耗并减少AI工厂和电网的压力。总的来说,对于一个1吉瓦的AI工厂,DSX优化每年可以带来数十亿美元的额外收入。在德克萨斯州、佐治亚州和内华达州,NVIDIA的合作伙伴正在将DSX变为现实。在弗吉尼亚州,NVIDIA正在建立一个AI工厂研究中心,使用DSX来测试和产品化Vera Rubin,从基础设施到软件。借助DSX,NVIDIA在全球的合作伙伴可以比以往更快地构建和启动AI基础设施。
完全在数字领域中。早在Vera Rubin作为一台真实的计算机存在之前,我们就已经把它当作一台数字孪生计算机来使用了。现在,早在这些AI工厂存在之前,我们将使用它,我们将设计它,我们将规划它,我们将优化它,我们将像数字孪生一样运营它。因此,我们所有的合作伙伴都在与我们合作,我非常高兴你们所有人都在支持我们,Geo在这里,通用电气Vernova在这里,施耐德,我想奥利维尔在这里,奥利维尔·布鲁姆在这里,西门子,令人难以置信的合作伙伴。好的,罗兰·布什,我想他正在观看。你好,罗兰。总之,非常非常棒的合作伙伴与我们合作。最初,我们有CUDA,并且我们拥有所有这些不同的软件合作伙伴生态系统。现在,我们有了Omniverse DSX,并且我们正在构建AI工厂,同样,我们拥有这些与我们合作的令人难以置信的合作伙伴生态系统。
开放生态:开源模型与战略合作
让我们来谈谈模型。特别是开源模型。在过去的几年里,发生了一些事情。首先,由于推理能力,开源模型变得相当强大。它变得相当强大,因为它们是多模态的,并且由于知识蒸馏,它们非常高效。因此,所有这些不同的能力使得开源模型首次对开发者来说非常有用。它们现在是初创企业的命脉。不同行业初创企业的命脉,因为,正如我之前提到的,每个行业都有自己的用例、自己的用例、自己的数据、自己的用例数据、自己的飞轮。所有这些能力,这些领域专业知识,都需要具备嵌入模型的能力。开源使之成为可能。研究人员需要开源。开发者需要开源。全世界的公司,我们需要开源。
开源模型真的非常重要。美国也必须在开源领域发挥领导作用。我们有非常棒的专有模型。我们有非常棒的专有模型。我们同样需要非常棒的开源模型。我们的国家依赖于此。我们的初创公司依赖于此。因此,英伟达正致力于实现这一目标。我们现在是最大的,我们在开源贡献方面处于领先地位。我们在排行榜上有23个模型。我们拥有所有这些不同的领域,从语言模型到我将要谈到的物理人工智能模型,再到机器人模型和生物学模型。这些模型中的每一个都拥有庞大的团队,这也是我们为自己建造超级计算机的原因之一,以便能够创建所有这些模型。我们拥有排名第一的语音模型、排名第一的推理模型和排名第一的物理人工智能模型。下载量非常非常惊人。我们致力于此。这样做的原因是科学需要它,研究人员需要它,初创公司需要它,公司也需要它。
我很高兴人工智能初创公司基于英伟达构建。他们这样做有几个原因。首先,当然,我们的生态系统非常丰富。我们的工具运行良好。我们的所有工具都可以在我们所有的GPU上运行。我们的GPU无处不在。实际上它就在每一个云端。它可以在本地部署。你可以自己构建它。你可以构建一台带有多个GPU的发烧友级游戏PC。你可以下载我们的软件堆栈,它就能正常工作。我们有富有的开发者,他们正在使这个生态系统变得越来越丰富。所以我真的对我们正在合作的所有初创公司感到高兴。我对此表示感谢。同样的情况是,这些初创公司中的许多公司现在开始创造更多的方式来享受我们的GPU。CoreWeaves、Nscale、Nibius、Lambda,所有这些公司, Crusoe,这些公司正在构建这些新的GPU云来为初创公司提供服务,我对此非常感谢。
这一切皆有可能,因为NVIDIA无处不在。我们整合了我们的库,我跟你说过的所有CUDAx库,我跟你说过的所有开源AI模型,我跟你说过的所有模型,例如,我们将其整合到AWS中。非常喜欢与Matt合作。例如,我们将其整合到谷歌云中。非常喜欢与Thomas合作。每个云都集成了NVIDIA GPU,以及我们的计算、我们的库以及我们的模型。喜欢与微软Azure的Satya合作。喜欢与Oracle的Clay合作。每个云都集成了NVIDIA堆栈。结果是,无论你走到哪里,无论你使用哪个云,它都能出色地工作。
我们还将NVIDIA库集成到世界的SaaS中,以便每个SaaS最终都将成为代理型SaaS。我喜欢比尔·麦克德莫特对ServiceNow的愿景。是的,就这样。我想那可能是比尔。你好,比尔。那么ServiceNow是什么呢?占世界企业工作流的85%,SAP占世界商业的80%,我和克里斯蒂安·克莱恩正在合作将NVIDIA库、CUDAX、Nemo和Nemotron,我们所有的AI系统集成到SAP中。与Synopsys的Sasin合作,加速世界的CAE、CAD、EDA工具,以便它们能够更快地运行和扩展。帮助他们创建AI代理。总有一天,我希望聘请AI代理ASIC设计师与我们的ASIC设计师一起工作。从本质上讲,就是Synopsys的光标,如果你愿意这么说的话。我们正在与阿尼鲁德合作。阿尼鲁德,我今天早些时候看到他了。他是赛前表演的一部分。Cadence正在做着令人难以置信的工作,加速他们的堆栈,创建人工智能代理,以便我们可以拥有Cadence人工智能ASIC设计师和系统设计师与我们合作。
今天,我们将宣布一个新的合作。人工智能将极大地提高生产力。人工智能将改变几乎每个行业。但人工智能也将极大地加剧网络安全挑战。不良的人工智能。因此,我们需要一个强大的防御者。我想不出比CrowdStrike更好的防御者了。乔治在这里。他之前在这。我早些时候看到他了。我们正在与CrowdStrike合作,使网络安全达到光速。为了创建一个在云端拥有网络安全人工智能代理,同时在本地或边缘拥有极佳人工智能代理的系统。这样,无论何时出现威胁,你都能在瞬间检测到它。我们需要速度,我们需要快速的代理式人工智能,超级智能的人工智能。
我还有第二个公告。这是世界上速度最快的企业公司。可能是当今世界上最重要的企业堆栈。Palantir本体。这里有Palantir的人吗?我刚才和Alex聊过。这是Palantir本体。他们获取信息,获取数据,获取人为判断,并将其转化为商业洞察。我们与Palantir合作加速Palantir所做的一切,以便我们能够以更大规模和更高速度进行数据处理。无论是过去的结构化数据,当然我们也会有结构化数据、人工记录的数据、非结构化数据,以及为了我们的政府、为了国家安全以及为了世界各地的企业而处理这些数据,以光速处理这些数据,并从中找到洞见。这就是未来将会呈现的样子。Palantir将整合英伟达(NVIDIA),以便我们能够以光速和非凡的规模进行处理。好的,英伟达(NVIDIA)和Palantir。
物理AI:机器人与数字孪生的融合
让我们来谈谈物理人工智能。物理人工智能需要三台计算机。正如训练一个语言模型需要两台计算机一样,一台用于训练,一台用于评估和推理。好的,这就是你看到的大型GB200。为了实现物理人工智能,你需要三台计算机。你需要一台计算机来训练它。这是GB,即Grace Blackwell NVLink 72。我们需要一台能够执行我之前用 Omniverse DSX 向您展示的所有模拟的计算机。它基本上是机器人的数字孪生,用于学习如何成为一个优秀的机器人,也是工厂的数字孪生。那台计算机是第二台计算机,Omniverse 计算机。这台计算机必须在生成式人工智能方面非常出色,并且必须擅长计算机图形、传感器模拟、光线追踪、信号处理。这台计算机被称为 Omniverse 计算机。一旦我们训练好模型,在数字孪生中模拟人工智能,并且该数字孪生可以是工厂的数字孪生以及一大堆机器人的数字孪生,那么您就需要操作该机器人。这就是机器人计算机。这个可以装入自动驾驶汽车。其中一半可以装入机器人。或者,您实际上可以拥有,你知道的,在操作中非常灵活和快速的机器人,可能需要两台这样的计算机。所以这是 Thor,Jetson Thor 机器人计算机。
这三台计算机都运行 CUDA,这使我们能够推进物理人工智能的发展。理解物理世界的人工智能。理解物理定律、因果关系、永恒性,你知道,物理人工智能。我们有令人难以置信的合作伙伴与我们一起创造工厂的物理人工智能。我们自己也在使用它来创建我们在德克萨斯州的工厂。一旦我们创建了机器人化工厂,我们就会拥有一堆在其中的机器人。这些机器人也需要物理人工智能,应用物理人工智能,并在数字孪生中工作。让我们看看它。
美国正在重新工业化。各个行业都在将制造业迁回国内。在德克萨斯州休斯顿,富士康正在建造一座最先进的机器人化工厂,用于制造英伟达人工智能基础设施系统。由于劳动力短缺和技能差距,数字化、机器人技术和物理人工智能比以往任何时候都更加重要。这家工厂是数字原生。在Omniverse中。富士康工程师在一个基于Omniverse技术开发的西门子数字化双胞胎解决方案中组装他们的虚拟工厂。每个系统,机械、电气、管道,都在建造前经过验证。西门子工厂仿真运行设计空间探索优化,以识别理想的布局。当出现瓶颈时,工程师会更新布局,更改由西门子TeamCenter管理。在Isaac Sim中,相同的数字孪生被用于训练和模拟机器人AI。在装配区域,发那科机械手构建GB300托盘模块。通过来自FII的手动机械手和熟练的AI,将母线安装到托盘中。然后,AMR将托盘运送到测试舱。之后,富士康使用Omniverse进行大规模传感器仿真,机器人AI在其中学习如何作为一个团队工作。在Omniverse中,基于NVIDIA Metropolis和Cosmos构建的视觉AI代理从上方监视机器人和工人的队伍,以监控运营并向富士康工程师发出异常和安全违规,甚至质量问题的警报。为了培训新员工,这些代理为交互式AI教练提供支持,以便轻松地进行员工入职培训。美国的再工业化时代已经到来。人们和机器人协同工作。这就是制造业的未来,工厂的未来。
我想感谢我们的合作伙伴富士康。首席执行官刘扬也在这里。但所有这些生态系统合作伙伴使我们有可能创造机器人工厂的未来。工厂本质上就是一个机器人,它协调其他机器人来制造机器人产品。完成这项工作所需的软件量非常巨大,除非你能在数字孪生中进行规划、设计和操作,否则几乎不可能实现。我很高兴看到卡特彼勒,我的朋友乔·克里德,以及他那家百年老公司也在他们的制造方式中采用了数字孪生。
这些工厂将拥有未来的机器人系统。其中最先进的一家是Figure。布雷特·阿德科克今天也在这里。他在三年半前创立了一家公司。他们今天的价值几乎是400亿美元。我们一起合作训练人工智能、训练机器人、模拟机器人,当然还有进入Figure的人形机器人计算机。真的很棒。我有幸亲眼见证。这真的非常了不起。人类拥有的机器人很有可能,我的朋友埃隆也在研究这个,这很可能会成为最大的消费类新型电子产品市场之一,而且肯定会是最大的工业设备市场之一。佩吉·约翰逊和Agility公司的人正在与我们合作开发用于仓库自动化的机器人。强生公司的人再次与我们合作,训练机器人,在数字孪生中模拟它,并操作机器人。这些强生公司的外科手术机器人甚至将以前所未有的精度进行完全无创的手术。
当然,还有有史以来最可爱的机器人。有史以来最可爱的机器人。迪士尼机器人。这件事对我们来说非常重要。我们正在与迪士尼研究院合作,开发一个全新的框架和模拟平台,该平台基于一项名为牛顿的革命性技术。而牛顿模拟器使得机器人能够在具有物理感知、基于物理学的环境中学习如何成为一个优秀的机器人。让我们来看一下。
蓝色。女士们先生们,迪士尼蓝色。告诉我它不可爱。他很可爱。我们都想要一个。我们都想要一个。现在,记住,你刚才看到的一切都不是动画。这不是电影。这是一个模拟。这个模拟是一个全宇宙。全宇宙,数字孪生。所以这些工厂的数字孪生、仓库的数字孪生、手术室的数字孪生,以及Blue可以在其中学习如何操纵、导航以及与世界互动的数字孪生。所有这些都是完全实时完成的。这将是世界上最大的消费电子产品线。其中一些现在确实运行得非常出色。这是人类或机器人技术的未来。当然,还有蓝色。好吗?
自动驾驶的拐点:轮式机器人与全球网络
现在,人类或机器人仍在开发中。但与此同时,有一个机器人显然正处于拐点。它基本上就在这里。那就是轮式机器人。这是一种无人驾驶出租车。无人驾驶出租车本质上是一个人工智能司机。现在,我们今天要做的事情之一是,我们宣布英伟达Drive Hyperion。这是一件大事。我们创建了这个架构,以便世界上每家汽车公司都可以制造汽车、车辆,可以是商用的,可以是载客的,可以是专门用于无人驾驶出租车的,制造出为无人驾驶出租车准备的车辆。
传感器套件将围绕摄像头、雷达和激光雷达,使我们能够实现最高水平的环绕茧式传感器感知和冗余,这对于最高级别的安全性是必不可少的。超越驱动(Hyperion Drive),超越驱动现在被设计应用于Lucid、梅赛德斯-奔驰,我的朋友奥拉·凯莱纽斯(Ola Kalenius),以及Stellantis的各位,还有许多其他车型也将采用。而且,一旦你拥有一个基本的标准平台,那么AV系统的开发者,比如那些才华横溢的公司Wave、Wabi、Aurora、Momenta、Neuro等等,就有很多。We Ride,有很多公司可以将他们的AV系统运行在标准底盘上。基本上,这个标准底盘现在已经变成了一个轮子上的计算平台。而且,因为它是一个标准平台,并且传感器套件是全面的,他们所有人都可以将他们的AI部署到上面。
让我们快速看一下。这是美丽的旧金山,你可以看到,无人驾驶出租车(RoboTaxi)的拐点即将到来。在未来,每年行驶一万亿英里,每年生产1亿辆汽车,全球大约有5000万辆出租车,这将由一大批无人驾驶出租车来扩充。所以,这将是一个非常大的市场。为了将其连接起来并在全球部署,今天我们宣布与Uber建立合作伙伴关系。Uber,达拉·科斯罗萨西(Dara K),我们正在合作将这些英伟达(NVIDIA)Drive Hyperion汽车连接到一个全球网络中。现在,在未来,你将能够叫到这些车,而且生态系统将变得非常丰富,我们将拥有遍布全球的Hyperion或无人驾驶出租车。这将成为我们新的计算平台,我期望它会非常成功。
结语:引领新一轮平台转型
好的。这就是我们今天讨论的内容。我们讨论了大量的事情。我们谈到,请记住,其核心是从通用计算到加速计算的两个平台转型。英伟达CUDA以及那些被称为CUDAX的库套件使我们能够应对几乎所有行业,并且我们正处于拐点。现在,它正像一个良性循环所暗示的那样增长。第二个拐点现在正向我们逼近。第二个平台转型,人工智能从经典的手写软件到人工智能。两个平台转型同时发生,这就是我们感受到如此惊人增长的原因。
量子计算,我们谈到了。开放模型,我们讨论过了。我们讨论了 CrowdStrike 和 Palantir 加速其平台的企业级应用。我们讨论了机器人技术,一个新兴的、可能成为最大的消费电子和工业制造领域之一。当然,我们还讨论了 6G。NVIDIA 拥有用于 6G 的新平台。我们称之为 Arc。我们有一个用于机器人汽车的新平台。我们称之为 Hyperion。我们甚至还有用于工厂的新平台。两种类型的工厂。人工智能工厂,我们称之为 DSX。然后是具有人工智能的工厂,我们称之为 Mega。
所以现在,我们也在美国进行制造。女士们先生们,感谢今天加入我们,感谢你们允许我们将GTC带到华盛顿特区。我们计划每年都举办,希望如此。感谢各位为让美国再次伟大所做的贡献。谢谢。
