Google揭AI超级电脑芯片TPU 称比英伟达A100更快更节能

【2023年4月6日讯】

带有液冷装置的张量处理单元(TPU)v4

谷歌(Google)周二公布了其用于训练人工智能模型的超级计算机的新细节,称其系统比英伟达(Nvidia)的A100芯片更快更节能。谷歌自2016年以来一直在设计和部署一种名为张量处理单元(Tensor Processing Unit,简称TPU)的人工智能芯片,部分用于内部使用。

谷歌是人工智能领域的先驱之一,其员工在过去十年中开发了该领域的一些最重要的进展。但有人认为,谷歌在商业化其发明方面落后了,而且在内部,该公司一直在竞相发布产品并证明它没有浪费自己的领先优势。

人工智能模型和产品,如谷歌的BardOpenAIChatGPT——由英伟达的A100芯片驱动——需要大量的计算机和数百或数千个芯片协同工作来训练模型,计算机需要连续运行数周或数月。

周二,谷歌表示,它已经建造了一个由4000多个TPU组成的系统,使用自己定制开发的光学开关来帮助连接单个机器。它自2020年以来一直在运行,并被用于训练谷歌的PaLM模型,该模型与OpenAI的GPT模型竞争,用了50天的时间。谷歌称其基于TPU的超级计算机,名为TPU v4,“比英伟达A100快1.2倍至1.7倍,耗电量少1.3倍至1.9倍”。谷歌的研究人员写道:“性能、可扩展性和可用性使TPU v4超级计算机成为大型语言模型的主力军。”

然而,谷歌的TPU结果并没有与英伟达最新的人工智能芯片H100进行比较,因为它是更近期并且使用了更先进的制造技术制造的芯片。周三发布了一个行业范围内的人工智能芯片测试MLperf 3.0的结果和排名,英伟达首席执行官黄仁勋(Jensen Huang)表示,最新英伟达芯片H100的结果比上一代芯片快得多。“今天的MLPerf 3.0突显了Hopper比A100提供了4倍的性能。”黄仁勋在他的公司博客中写道。

相关论文

消息来源