老黄祭出新核弹B200!30倍H100单机可训15个GPT4模型,AI迎新摩尔时
Blackwell B200 GPU,是如今世界上最强大的AI芯片,旨在「普惠万亿参数的AI」。
本来,H100已经使英伟达成为价值数万亿美元的公司,赶超了谷歌和亚马逊,但现在,凭着Blackwell B200和GB200,英伟达的领先优势还要继续领先。
而将两个B200与单个Grace CPU相结合的GB200,则可以为LLM推理工作负载提供30倍的性能,同时大大提高效率。
这种额外的处理能力,就能让AI公司训练更大、更复杂的模型,甚至可以部署一个27万亿参数的模型。
凭借H100成为全球市值第三大公司的英伟达,今天再次推出了性能野兽——Blackwell B200 GPU和GB200「超级芯片」。
它以著名数学家David Blackwell(1919-2010)命名。他一生中对博弈论、概率论做出了重要的贡献。
老黄表示,「30年来,我们一直在追求加速计算,目标是实现深度学习和AI等变革性突破。生成式AI已然成为我们这个时代的标志性技术,而Blackwell将是推动这场新工业革命的引擎」。
与H100相比,B200的晶体管数量是其(800亿)2倍多。而单个H100最多提供4 petaflops算力,直接实现了5倍性能提升。
而GB200是将2个Blackwell GPU和1个Grace CPU结合在一起,能够为LLM推理工作负载提供30倍性能,同时还可以大大提高效率。
在GPT-3(1750亿参数)大模型基准测试中,GB200的性能是H100的7倍,训练速度是H100的4倍。
对每个神经元使用4位(20 petaflops FP4)而不是8位,直接将算力、带宽和模型参数规模提高了一倍。
最新的NVLink迭代增强了数万亿参数AI模型的性能,提供了突破性的每GPU双向吞吐量,促进了无缝高速通信。
这也就是第二个关键区别,只有当你连接大量这些GPU时才会出现:新一代NVLink交换机可以让576个GPU相互通信,双向带宽高达1.8TB/秒。
这就要求英伟达打造一个全新的网络交换芯片,其中包含500亿个晶体管和一些自己的板载计算:拥有3.6 teraflops FP8处理能力。
在此之前,由16个GPU组成的集群,有60%的时间用于相互通信,只有40%的时间用于实际计算。
为了确保可靠性、可用性和可维护性,Blackwell GPU集成了专用引擎和基于AI的预防性维护功能,以最大限度地延长系统正常运行时间并最大限度地降低运营成本。
贾扬清回忆道,「我记得在Meta,当我们在一小时内(2017年)训练ImageNet时,总计算量约为1exaflop。这意味着有了新的DGX,理论上你可以在一秒钟内训练ImageNet」。
此前据分析师估计,英伟达基于Hopper的H100芯片,每颗的成本在25,000美元到40,000美元之间,整个系统的成本高达200,000美元。
机柜中的每个机架包含两个GB200芯片,或两个NVLink交换机。一共有18个GB200芯片托盘,9个NVLink交换机托盘有。
用户还可以使用DGX B200系统构建DGX SuperPOD,创建人工智能卓越中心,为运行多种不同工作的大型开发团队提供动力。
自从ChatGPT于2022年底掀起AI热潮以来,英伟达的股价已经上涨了五倍之多,总销售额增长了两倍多。
因为英伟达的GPU对于训练和部署大型AI模型至关重要,微软、Meta等大公司都已纷纷豪掷数十亿购买。
如今各大公司和软件制造商还在争先恐后地抢购Hopper H100等芯片呢,GB200就已经出了。
从此,英伟达不再是芯片供应商,而更像是微软、苹果这样的平台提供商,可以让其他公司在平台上构建软件。
英伟达副总裁Manuvir Das表示,GPU是可销售的商业产品,而软件,是为了帮人们用不同的方式使用GPU。
NIM使得在英伟达的任何GPU上运行程序都变得更容易,即使是可能更适合部署但不适合构建AI的旧GPU。
也就是说,假如一名开发者有一个有趣的模型,希望向人们推广,就可以把它放到NIM中。英伟达会确保它可以在所有的GPU上运行,这样模型的受众就大大扩展了。
这样,想要运行自己AI模型的公司,就能运行自己的AI模型,而不是从OpenAI等公司购买对AI结果的访问权。
需要购买基于英伟达服务器的客户,需要注册Nvidia企业版,每个GPU每年需要花费4,500美元。
英伟达将与微软或Hugging Face等人工智能公司合作,确保他们的人工智能模型经过调整,可以在所有兼容的英伟达芯片上运行。
然后,使用NIM,开发者可以在自己的服务器或基于云的英伟达服务器上,高效运行模型,而无需冗长的配置过程。
NIM支持跨多个领域的AI用例,包括LLMs、视觉语言模型(VLM)以及用于语音、图像、视频、3D、药物发现、医学成像等的模型。
AI API就是未来的软件。在未来,所有LLM都可以从云端获取,从云上下载,运行它的工作站。
2012年,将一只小猫的图片输入,AlexNet识别后输出「cat」,让世界所有人为之震惊,并高呼这改变了一切。
而现在从三个字「cat」输出10 million 像素成为了可能。仅用了10年时间,我们就可以识别文本、图像、视频。
「这是我们总有一天都会使用的最终模型。它可以获取任何模态并生成任何模态。同时,它还能在没有每个部件的情况下工作」。