officeba > 技术文章 > 正文

微软自曝花数亿美元为OpenAI组装超算开发ChatGPT 使用数万个英伟达芯片

时间:2025-03-22 09:56:12 作者:晓梦说教程

3月14日,美国当地时间周一,微软公布了一份文件,披露其花费数亿美元帮助OpenAI组装了一台AI超级计算机,以帮助开发爆炸性的ChatGPT。这台超级计算机使用了数万颗NVIDIA图形芯片A100,使得OpenAI越来越强大训练 AI模型。

OpenAI试图训练越来越大AI模型,而这些模型正在吸收更多的数据,学习越来越多的参数。这些参数是AI和训练。这意味着OpenAI要获得强大的云计算服务支持还需要很长时间。

为了迎接这一挑战,当微软在2019年向OpenAI投资10亿美元时,该公司同意为这家AI研究初创公司组装一台巨大的尖端超级计算机。但问题是微软没有OpenAI需要的任何东西,也不完全确定是否能在不破坏Azure云服务的情况下构建出如此庞大的设备。

为此,微软不得不想办法把NVIDIA的几万个A100图形芯片连接起来,改变服务器放在机架上的方式,防止断电。A100图形芯片是训练的主力AI模型。微软主管云计算和AI业务的执行副总裁斯科特·格思里(Scott Guthrie)并未透露该项目的具体成本,但其暗示可能达到数亿美元。

微软Azure AI基础设施总经理尼迪·卡佩尔(Nidhi Cappell)表示:“我们构建了一个系统架构,它可以在非常大的范围内运行,并且非常可靠,这是ChatGPT成功的重要原因。这只是我们从中得出的一个模式,还会有很多其他的模型。”

基于这项技术,OpenAI发布了热门聊天机器人ChatGPT。在去年11月推出几天后,它吸引了超过100万用户,现在正被纳入其他公司的商业模式。随着企业和消费者对ChatGPT等生成式人工智能(AIGC)工具的兴趣越来越大,亚马逊和谷歌等云服务提供商将面临更大的压力,以确保其数据中心能够提供所需的巨大计算能力。

与此同时,微软现在正在使用它为OpenAI到训练构建的基础设施,运行自己的大规模AI模型,包括上个月推出的新bing搜索聊天机器人。该公司还向其他客户出售该系统。这家软件巨头已经在开发下一代AI超级计算机,这是微软和OpenAI扩大合作的一部分,并且微软在交易中增加了100亿美元的投资。

格思里在采访中表示:“我们没有为OpenAI定制任何东西。虽然它最初是定制的,但我们总是以通用的方式构建它,以便任何想要大型语言训练的人都可以利用相同的改进技术。这确实有助于我们在更大范围内成为更好的AI智能云。”

训练大规模AI/[K3/]需要在某个地方有大量互联的图形处理单元,就像微软组装的AI超级计算机一样。一旦模型投入使用,回答用户提出的所有问题(这个过程叫做推理)需要的设置略有不同。为此,微软也部署了用于推理的图形芯片,但这些处理器(数千个)在地理上分散在公司的60多个数据中心。微软表示公司现在正在为AI工作负载添加最新的NVIDIA图形芯片H100和最新的Infiniband网络技术,以更快地共享数据。

新的Bing还在测试阶段,微软正在逐步从应用测试列表中增加更多的用户。Guthrie的团队每天与大约20名员工开会。他把这些员工称为“维修站人员”,最初指的是赛车中车队后勤维修组的技术人员。他们的工作是找出如何快速在线获得更多计算能力,解决突发问题。

云服务依赖于成千上万个不同的组件,包括服务器、管道、建筑物的混凝土、不同的金属和矿物,任何一个组件的延迟或短缺,无论多小,都可能导致整个项目的中断。最近,“维修人员”团队不得不帮助解决电缆槽的短缺问题,电缆槽是一种篮子形状的设备,用于固定从机器上下来的电缆。因此,他们设计了一种新的电缆槽。Guthrie表示,他们还致力于研究如何在全球现有的数据中心中挤压尽可能多的服务器,这样就不用等待新的建筑完工。

当OpenAI或微软开始训练 large AI模型时,这项工作需要一次性完成。工作被分配给所有的GPU,在某些时候,这些GPU需要相互通信来共享工作。对于AI超级计算机来说,微软必须保证处理所有芯片之间通信的网络设备能够处理这个负载,它必须开发最大限度利用GPU和网络设备的软件。公司现在开发了一个软件,可以训练几十万亿的参数AI模型。

因为所有的机器都是同时启动的,微软不得不考虑放在哪里,电源放在哪里。否则,数据中心最终可能会断电。Azure全球基础设施总监Alistair Speirs表示微软还需要确保所有这些机器和芯片都可以冷却,该公司在更凉爽的气候下使用蒸发;制冷模式,寒冷气候使用室外空气,炎热气候使用高科技沼泽冷却器。

Guthrie表示微软将继续致力于定制服务器和芯片的设计,以及优化供应链的方法,以尽可能地提高速度、提高效率和节省成本。他说:“现在让世界惊叹的AI模型是基于我们几年前开始建造的超级计算机,新的模型将使用我们现在正在建造的新超级计算机训练。这台计算机要大得多,可以实现更复杂的技术。”

微软一直在努力让Azure的AI功能更强大,并推出了新的虚拟机,使用了NVIDIA的H100和A100张量核GPU以及Quantum-2 InfiniBand网络。微软表示这会让OpenAI和其他依赖Azure 训练的公司变得更大更复杂AI模型。

微软AzureAIEnterprise副总裁埃里克·博伊德(Eric Boyd)在一份声明中表示:“我们发现我们需要建立一个特殊的集群来集中支持大量的培训工作,OpenAI就是早期的证据之一。我们正在与他们密切合作,以了解他们在构建训练环境时需要的关键条件以及他们需要的其他东西。”

以上就是小编给大家带来的微软自曝花数亿美元为OpenAI组装超算开发ChatGPT 使用数万个英伟达芯片的全部内容了,如果对您有帮助,可以关注officeba网站了解后续资讯。

相关文章

同类最新