nebula nbl-b200 时隔两年黄仁勋重磅发布新一代GPU，Blackwell架构性能飞跃

作者：球迷网时间：2025年09月22日 14:16

非常出色，不过我们渴望性能更强的图形处理器，两年之后黄仁勋在英伟达的人工智能活动GTC，郑重推出了全新一代的GPU构造。

生成式人工智能技术快速发展，英伟达正凭借性能更强的处理器来招徕用户，其全新设计备受瞩目，运算能力获得显著提升。

周一媒体报道称，这款作为架构后继的产品，在性能表现上十分突出，其顶级芯片的浮点运算能力比前代增强了五倍左右，同时能耗也得到改善，在与AMD GPU的对比中展现出明显优势，从而进一步稳固了英伟达在性能与能效方面的领先地位。

效率提高的核心在于定价策略，每一块显卡实质上包含两个芯片，借助每秒传输10TB的HBI（高带宽接口）技术相连，让它们可以当作一个整体进行加速运算。

另外，每颗处理单元配置了八个八阶叠层HBM3e存储模块，整体存储量可达到192GB，数据传输速率能达到每秒8TB。与H100和H200存在差异，B100和B200在存储单元与图形处理器之间的数据通路规格相同。现阶段该系列涵盖三种规格：B100、B200以及Grace-（GB200）。

此外，要实现最佳表现并非简单，必须综合多种条件。英伟达声称新处理器的计算能力可以很高，但这个数据是按照新制定的FP4标准，并且配合液体冷却设备测试出来的。要想达到极限能力，几乎需要使用液体散热方案。若将新芯片的FP8表现与上一代H100对比，其速度仅增长了大约两倍半。

GB200超级芯片性能强悍

英伟达的顶级图形处理器被安置在GB200芯片里，跟Grace芯片类似，Grace芯片把现成的72核Grace中央处理器和图形处理器，通过C2C互连技术融合在了一起。

然而，与独立单元不同，GB200配置了两个加速设备，因此运算能力得以提升，同时配备了384GB容量的HBM3e存储器。

之前的GH200被标明耗电量为1000W，其中GPU部分为700W，Arm CPU部分为300W。据此推测，GB200在满载情况下，其总能耗大约为2700W，该数值包含两个GPU球迷网，每个的功耗为1200W，以及与GH200相同的Arm CPU。因此，英伟达选择直接使用液冷散热方案也就显得合乎情理了。

移除沉重的散热装置，改为配置数片散热板，英伟达可以这两个处理器紧密地放置在一个1U机箱里，这个机箱能提供最高800亿亿次浮点运算的处理能力，或者以FP8运算方式实现400亿亿次浮点运算。

与旧款机器对比，这个双GB200系统可以输出更强的运算能力，达到40，而它的8U 10.2kW DGX H100平台则弱一些，并且它占用的物理空间缩小到了原来的八分之一。

新一代连接方案使性能大幅提升

GB200是NVL72机架式AI系统的关键组成部分，NVL72机架式系统由GB200构成，该系统通过交换装置将36个GB200单元组合在一起。这种系统专门用于承担大规模的训练和推理工作，能够应对包含2700亿参数的大型语言模型。

依据英伟达披露，针对训练任务，该系统的效能可媲美FP8的精度水平。就推理任务而言，该系统的运算力能够达到FP4水准的1倍。不仅如此，八套NVL72机架能够彼此连接，构建出名为DGX BG200的巨型计算平台。

Blackwell架构GPU_新一代GPU性能提升_nebula nbl-b200

每个机架配置了18个单元，包含32块Grace GPU以及72个加速设备。这些单元之间借助九个交换设备互联，从而让它们能像单个拥有13.5TB HBM3e内存的GPU单元那样协同运作。

这基本上就是沿用之前DGX系统里的技术，让八个GPU能像单卡GPU那样工作。差别在于，借助专用设备，能够支持更多GPU。新一代产品为每个GPU配备了1.8TB/s双向带宽，能够实现多达576个GPU之间的无缝高速数据交换。

散热需求激增，液冷或成必备

英伟达的最新产品并非必须采用液体散热技术，不过，若要充分发挥英伟达顶级处理器的性能，采用液体冷却方案几乎成了必要条件。

B100、B200 以及 GB200 这几款产品的核心差异体现在输出功率和运行效能上。根据英伟达披露的信息，这些处理器实际耗电量从700W调整到1200W，具体数值会因型号不同而有所变化，同时也会受到散热方案的制约。

芯片的运作表现会随功率设定变化。英伟达表明，装备风冷系统的HGX B100 设备，单GPU能达到的效能，而能耗则与H100 一样。这表明，倘若数据中心已能承载英伟达的DGX H100 系统，那么增添B100 节点应该不会有障碍。

B200格外引人注目，它运用空气冷却的HGX或DGX布局，单个GPU所能发挥的性能，伴随的能耗是一千瓦。依据英伟达披露的信息，DGX B200机柜内置八个单元，整体能耗总计约14.3千瓦，这表明在机架的电力承载与散热系统上，必须额外准备约60千瓦的容量。

针对专门为人工智能集群建造的新型数据中心而言，这并非难题；然而，对于已经存在的建筑，其难度或许会更高。

AI计算核心的应用前景，很大程度上取决于采用液体散热技术，这几乎已是行业共识。芯片在全力工作时，其散发的热量能高达1200瓦，并且还能确保最佳运算表现。

与竞品相比，仍具优势

英伟达目前掌控着人工智能基础设备的领域，不过并非市场上仅有的竞争者，实力雄厚的对手英特尔和AMD正陆续发布Gaudi及相应设备，云服务提供商们也在积极研发专属的芯片，此外像Samba Nova这样的AI初创企业同样在竞争中拥有自己的位置。

以AMD去年12月推出的 GPU相比，仍具备优势：

采用尖端封装方案，把八个CDNA 3运算模块向上叠放在四个 I/O 芯片上，这些芯片负责GPU之间以及与存储器之间实现快速数据传输。

性能表现上，FP8 浮点运算能力比同类产品强30%，面对以H100为核心的高性能计算集群，处理中双精度任务时，领先幅度接近2.5倍。若将功耗为750W的英伟达芯片同700W的B100进行比较，其性能表现是后者的2.67倍。

另外，这两种处理器目前都配备了192GB的超高速内存，其数据传输速率提升了2.8TB每秒。内存的传输能力已被证实对人工智能的运算表现至关重要，尤其是在进行计算分析时。比如，英伟达的H200可以看作是H100的升级版，主要强化了内存的吞吐量。虽然两者的浮点运算能力数值相同，英伟达指出H200在处理Meta公司开发的70B规模模型时，效率能达到H100的三倍。

标签： nebulanbl-b200

上一篇: 4月28日CBA季后赛半决赛：广厦男篮主场大胜辽宁，2-0领先

下一篇: 2025年CBA选秀大会举行！福建、四川、江苏首轮顺位选人情况

相关专题

阿尔达VS查洛摩利第一轮

利恩B队VS阿桑尼B队解说

施历斯VS斯特鲁加解说

谢菲尔德联队U21VS哈德斯菲尔德U21主场

奎松城首都VS比南拉古纳视频直播

婆罗洲三马林达VS伯希索罗胸章

亚松森瓜拉尼后备队VS巴拉圭国民后备队半决赛

巴科洛德土蕃VS宿务精英阵容