英伟达发布最新核弹,地表最强GPU B200,高达2080亿晶体管!
英伟达发布最新核弹,地表最强GPU B200,高达2080亿晶体管!
英伟达于2023年3月GTC演讲中,CEO黄仁勋展示了多项AI时代成就,并发布Grace Hopper芯片、AI Foundations云服务、DGX Cloud超级计算服务及GPU加速量子计算系统等新品。2024年3月19日,英伟达再次于NVIDIA GTC演讲中,CEO黄仁勋分享新一代AI突破,展现AI变革新篇章。
黄仁勋,身着标志性皮衣,成为演讲焦点。他提到GTC汇聚了生命科学、医疗保健、零售、物流等领域的研究者,总价值达百万亿美元。黄仁勋强调当前需要新计算方式,加速计算是关键,以满足伙伴对高功率和效率的需求,暗示英伟达将有所作为。
"Blackwell:引领AI新时代的平台"
"随后亮相的Blackwell B200是一款大型GPU,命名源于博弈论和统计学专家大卫·哈罗德·布莱克威尔,首位入选美国国家科学院的黑人学者。英伟达透露,B200尺寸是“人工智能超级芯片”Hopper的两倍,含2080亿晶体管,采用定制的两掩模版极限N4P TSMC工艺制造,通过10TBps芯片到芯片链路连成单个GPU。此芯片虽采用新节点TSMC 4NP,但只是GH100 GPU的4N节点性能升级版,英伟达首次无法利用新节点的性能和密度优势。因此,Blackwell的效率增益主要源自架构效率,与横向扩展的绝对规模结合,共同提升其整体性能。"
NVIDIA新旗舰将采用双GPU芯片封装设计,实现Chiplet化,单个芯片面积超过800mm²。GH100芯片接近4纳米极限,故NVIDIA寻求新突破。新B200 GPU拥有2080亿晶体管,FP4性能高达20 petaflops,配备192GB HBM3e内存和8 TB/s带宽。
NVIDIA计划通过其首款多芯片解决方案B200突破传统加速器的局限。该方案将两个芯片作为统一CUDA GPU运行,利用高带宽I/O链路NV-HBI提供10TB/秒的数据传输能力。每个芯片配对4个HBM3E内存堆栈,总计8个堆栈,达到8192位有效内存总线宽度。B200提供192GB的HBM3E内存,带宽高达8TB/秒,是H100的两倍多。虽然TDP信息尚未公布,但预计会很高。NVIDIA将同时提供风冷和液冷系统。目标是提高训练性能4倍,推理性能30倍,能源效率提高25倍。NVIDIA需要在竞争激烈的推理市场中找到并保持领先地位。
Blackwell配备超级芯片,包括两个B200 GPU和一个Nvidia Grace CPU,链路速度达900GBps。与Nvidia H100 GPU相比,GB200 Superchip在LLM推理工作负载上的性能提升30倍,成本及能耗降低25倍。此外,还将推出与现有HGX H100兼容的HGX B100,每个GPU TDP限制为700W,吞吐量达14 petaflops。Blackwell还支持第二代Transformer引擎,通过4位而非8位计算,使计算、带宽和模型大小加倍。第五代NVLink为每个GPU提供1.8TB/s双向吞吐量,确保576个GPU间的高速通信。
英伟达发布GB200 NVL72,多节点、液冷、机架式系统,适用于密集计算。系统由36个Grace Blackwell超级芯片组成,含72个GPU和36个CPU,第五代NVLink互连。新NVLink芯片1.8TB/s带宽,支持576个GPU域,台积电4NP节点制造。支持3.6teraflops Sharp v4片上网络计算,带宽远超HDR InfiniBand。与H100相比,新NVSwitch速度提升18倍,大幅改善AI网络扩展性。每个Blackwell GPU配18个第五代NVLink连接,每链路50GB/s双向带宽。GB200 NVL72还包括NVIDIA BlueField-3,实现云网络加速、可组合存储、零信任安全和GPU计算弹性。相比H100,性能提升30倍,成本和能耗降低25倍。
在演讲中,多家科技巨头如亚马逊、谷歌、Meta、微软、甲骨文云和OpenAI均确认今年晚些时候将采用Blackwell GPU,以加速AI模型交付。"Blackwell GPU提供了卓越的性能提升,我们非常高兴能与Nvidia持续合作来加强我们的AI计算能力," OpenAI CEO Sam Altman表示。特斯拉和xAI的CEO埃隆·马斯克 (Elon Musk) 也称赞道:"当前市场上,Nvidia的AI硬件无出其右。"
"DGX SuperPOD:未来AI超算新纪元"
英伟达在发布Blackwell GPU后,又推出了基于NVIDIA GB200 Grace Blackwell超级芯片的NVIDIA DGX SuperPOD,专门处理万亿参数模型,具有持续的正常运行时间,适用于超大规模生成式AI训练和推理工作负载。新型DGX SuperPOD采用高效液冷机架规模架构和NVIDIA DGX™ GB200系统构建,能在FP4精度下提供11.5 exaflops的AI超级计算能力和240 TB快速内存,且可通过额外机架扩展。
DGX GB200系统配备36个NVIDIA GB200超级芯片,含36个Grace CPU和72个Blackwell GPU,通过NVIDIA NVLink®连接。与H100 Tensor Core GPU相比,GB200性能提升30倍于大型语言模型推理。NVIDIA创始人黄仁勋称DGX AI超级计算机为AI工业革命的工厂,新DGX SuperPOD结合NVIDIA加速计算、网络和软件最新进展,助力各公司、行业和国家完善并生成AI。
下一代AI网络交换机:X800
英伟达发布专为AI设计的新一代网络交换机X800系列,包括InfiniBand和Ethernet两款,均可实现800Gb/s吞吐量,突破计算和AI工作负载网络性能界限。配套软件可加速数据中心内各类AI、云、数据处理和HPC应用,包括采用NVIDIA Blackwell架构的新产品系列。
英伟达推出Quantum-X800平台,由Quantum Q3400交换机与ConnectX-8 SuperNIC组成,实现业界领先的800Gb/s吞吐量,带宽容量提升5倍,网内计算能力达14.4Tflops,为AI云和企业基础设施提供优化网络性能。同时,Spectrum-X800平台通过SpectrumSN5600交换机与BlueField-3超级网卡,提供对多租户生成式AI云和大型企业的高级功能集。该平台对客户如微软Azure和Oracle Cloud Infrastructure具有重要意义。
AI赋能力光刻
英伟达宣布,台积电和新思将采用其去年推出的计算光刻平台cuLitho进行生产,旨在加速制造并突破下一代先进半导体芯片的物理极限。计算光刻是半导体制造中计算最密集的环节,每年需数百亿小时CPU时间。英伟达称,其加速技术使得350个NVIDIA H100系统可取代4万个CPU系统,提升生产效率,降低成本、空间和功耗。
cuLitho作为TSMC的创新图案化技术,自推出以来为双方带来了新机遇。测试表明,cuLitho将曲线流程和传统曼哈顿式流程速度分别提升了45倍和近60倍。英伟达利用生成式AI算法,进一步提升了cuLitho平台价值,速度提高了2倍。cuLitho提供的加速计算和生成式AI可减轻OPC流程的成本和瓶颈,使工厂在开发新技术时设计出更多新颖的解决方案。TSMC与NVIDIA的合作大幅提升了性能、吞吐量,缩短了周期时间并减少了功耗。Synopsys总裁表示,计算光刻的复杂性和成本随着先进制造工艺的增加而急剧增加,与TSMC和NVIDIA的合作对于实现埃米级微缩至关重要。随着EDA厂商新思将该技术集成到软件工具中,以及台积电的应用,计算光刻未来前景广阔。
依然大幅领先
B200的发布,延续了英伟达在GPU领域的霸权,目前仍无公司能挑战其地位,这是其十年深耕的回报。值得注意的是,英伟达首次采用多芯片设计,转向双芯片,原因是B200采用台积电改进版N4P工艺,晶体管密度未大幅提升,而H100已接近理论最大值。此外,英伟达不再只销售单个芯片,而是推出包含60万个零件、重1361公斤的B200 NVL72系统,有望成为AI企业新宠。英伟达凭B200稳固了AI产业领导地位。