非常出色,不过我们渴望性能更强的图形处理器,两年之后黄仁勋在英伟达的人工智能活动GTC,郑重推出了全新一代的GPU构造。
生成式人工智能技术快速发展,英伟达正凭借性能更强的处理器来招徕用户,其全新设计备受瞩目,运算能力获得显著提升。
周一媒体报道称,这款作为架构后继的产品,在性能表现上十分突出,其顶级芯片的浮点运算能力比前代增强了五倍左右,同时能耗也得到改善,在与AMD GPU的对比中展现出明显优势,从而进一步稳固了英伟达在性能与能效方面的领先地位。
效率提高的核心在于定价策略,每一块显卡实质上包含两个芯片,借助每秒传输10TB的HBI(高带宽接口)技术相连,让它们可以当作一个整体进行加速运算。
另外,每颗处理单元配置了八个八阶叠层HBM3e存储模块,整体存储量可达到192GB,数据传输速率能达到每秒8TB。与H100和H200存在差异,B100和B200在存储单元与图形处理器之间的数据通路规格相同。现阶段该系列涵盖三种规格:B100、B200以及Grace-(GB200)。
此外,要实现最佳表现并非简单,必须综合多种条件。英伟达声称新处理器的计算能力可以很高,但这个数据是按照新制定的FP4标准,并且配合液体冷却设备测试出来的。要想达到极限能力,几乎需要使用液体散热方案。若将新芯片的FP8表现与上一代H100对比,其速度仅增长了大约两倍半。
GB200超级芯片性能强悍
英伟达的顶级图形处理器被安置在GB200芯片里,跟Grace芯片类似,Grace芯片把现成的72核Grace中央处理器和图形处理器,通过C2C互连技术融合在了一起。
然而,与独立单元不同,GB200配置了两个加速设备,因此运算能力得以提升,同时配备了384GB容量的HBM3e存储器。
之前的GH200被标明耗电量为1000W,其中GPU部分为700W,Arm CPU部分为300W。据此推测,GB200在满载情况下,其总能耗大约为2700W,该数值包含两个GPU球迷网,每个的功耗为1200W,以及与GH200相同的Arm CPU。因此,英伟达选择直接使用液冷散热方案也就显得合乎情理了。
移除沉重的散热装置,改为配置数片散热板,英伟达可以这两个处理器紧密地放置在一个1U机箱里,这个机箱能提供最高800亿亿次浮点运算的处理能力,或者以FP8运算方式实现400亿亿次浮点运算。
与旧款机器对比,这个双GB200系统可以输出更强的运算能力,达到40,而它的8U 10.2kW DGX H100平台则弱一些,并且它占用的物理空间缩小到了原来的八分之一。
新一代连接方案使性能大幅提升
GB200是NVL72机架式AI系统的关键组成部分,NVL72机架式系统由GB200构成,该系统通过交换装置将36个GB200单元组合在一起。这种系统专门用于承担大规模的训练和推理工作,能够应对包含2700亿参数的大型语言模型。
依据英伟达披露,针对训练任务,该系统的效能可媲美FP8的精度水平。就推理任务而言,该系统的运算力能够达到FP4水准的1倍。不仅如此,八套NVL72机架能够彼此连接,构建出名为DGX BG200的巨型计算平台。

每个机架配置了18个单元,包含32块Grace GPU以及72个加速设备。这些单元之间借助九个交换设备互联,从而让它们能像单个拥有13.5TB HBM3e内存的GPU单元那样协同运作。
这基本上就是沿用之前DGX系统里的技术,让八个GPU能像单卡GPU那样工作。差别在于,借助专用设备,能够支持更多GPU。新一代产品为每个GPU配备了1.8TB/s双向带宽,能够实现多达576个GPU之间的无缝高速数据交换。
散热需求激增,液冷或成必备
英伟达的最新产品并非必须采用液体散热技术,不过,若要充分发挥英伟达顶级处理器的性能,采用液体冷却方案几乎成了必要条件。
B100、B200 以及 GB200 这几款产品的核心差异体现在输出功率和运行效能上。根据英伟达披露的信息,这些处理器实际耗电量从700W调整到1200W,具体数值会因型号不同而有所变化,同时也会受到散热方案的制约。
芯片的运作表现会随功率设定变化。英伟达表明,装备风冷系统的HGX B100 设备,单GPU能达到的效能,而能耗则与H100 一样。这表明,倘若数据中心已能承载英伟达的DGX H100 系统,那么增添B100 节点应该不会有障碍。
B200格外引人注目,它运用空气冷却的HGX或DGX布局,单个GPU所能发挥的性能,伴随的能耗是一千瓦。依据英伟达披露的信息,DGX B200机柜内置八个单元,整体能耗总计约14.3千瓦,这表明在机架的电力承载与散热系统上,必须额外准备约60千瓦的容量。
针对专门为人工智能集群建造的新型数据中心而言,这并非难题;然而,对于已经存在的建筑,其难度或许会更高。
AI计算核心的应用前景,很大程度上取决于采用液体散热技术,这几乎已是行业共识。芯片在全力工作时,其散发的热量能高达1200瓦,并且还能确保最佳运算表现。
与竞品相比,仍具优势
英伟达目前掌控着人工智能基础设备的领域,不过并非市场上仅有的竞争者,实力雄厚的对手英特尔和AMD正陆续发布Gaudi及相应设备,云服务提供商们也在积极研发专属的芯片,此外像Samba Nova这样的AI初创企业同样在竞争中拥有自己的位置。
以AMD去年12月推出的 GPU相比,仍具备优势:
采用尖端封装方案,把八个CDNA 3运算模块向上叠放在四个 I/O 芯片上,这些芯片负责GPU之间以及与存储器之间实现快速数据传输。
性能表现上,FP8 浮点运算能力比同类产品强30%,面对以H100为核心的高性能计算集群,处理中双精度任务时,领先幅度接近2.5倍。若将功耗为750W的英伟达芯片同700W的B100进行比较,其性能表现是后者的2.67倍。
另外,这两种处理器目前都配备了192GB的超高速内存,其数据传输速率提升了2.8TB每秒。内存的传输能力已被证实对人工智能的运算表现至关重要,尤其是在进行计算分析时。比如,英伟达的H200可以看作是H100的升级版,主要强化了内存的吞吐量。虽然两者的浮点运算能力数值相同,英伟达指出H200在处理Meta公司开发的70B规模模型时,效率能达到H100的三倍。
2025年CBA选秀大会举行!福建、四川、江苏首轮顺位选人情况
nebula nbl-b200 时隔两年黄仁勋重磅发布新一代GPU,Blackwell架构性能飞跃
4月28日CBA季后赛半决赛:广厦男篮主场大胜辽宁,2-0领先
本赛季NBA全明星赛7日举行,完整阵容及相关情况揭晓
纳什赛季报销后等待多季仍无缘球场,最终无奈宣布退役
盘点NBA全明星票王:虽非顶级荣誉,但含金量十足
8月31日林书豪宣布退役!15年职业生涯,这决定太难了
浙江稠州男篮去年战绩差原因剖析,新赛季能否逆袭?
NBA常规赛东部局势白热化!步行者、活塞、雄鹿排位战引热议?
智能手机普及下,值得一试的几款热门好玩手机篮球游戏推荐?
1月30日NBA公布全明星新秀赛名单,罗斯无缘首发
2月3日NBA 6场比赛战罢,独行侠惨败骑士,快船对阵猛龙