谷歌AI芯片TPU v5p在训练LLM方面比其前一代快2.8倍

谷歌正迅速成为其最好的朋友英伟达的强大对手——其超级计算机所使用的TPU v5p人工智能芯片比以往任何时候都更快、更大、更宽，甚至超过了强大的H100。谷歌在最近推出其Gemini人工智能模型的同时，也发布了其最新版本的旗舰张量处理单元（TPU），用于人工智能的训练和推理，这似乎是一种挑战英伟达自己的市场领先的图形处理器（GPU）的尝试。

图源备注：图片由AI生成，图片授权服务商Midjourney

TPU v5p是谷歌最强大的定制设计的人工智能加速器，已经被部署到了该公司的“人工智能超级计算机”上。这是一种专门为运行人工智能应用而构建的超级计算架构，而不是通常运行科学工作负载的超级计算机，因为TPU不适合这些工作。

其最新版本的TPU每个单元（组成系统的部分）有8， 960 个芯片，相比之下，v4 只有4， 096 个，而且在每个单元可用的浮点运算次数（FLOPs）方面，它的可扩展性是v4 的四倍。这些新的单元提供了4，800Gbps的吞吐量。新的单元还拥有95GB的高带宽内存（HBM），而TPU v4 只有32GB的HBM RAM。

不同于英伟达，它将其GPU出售给其他公司，谷歌的定制TPU仍然只在其自己的产品和服务中使用。谷歌的TPU长期以来一直用于为其服务提供动力，包括Gmail、YouTube和Android，而最新版本也被用于训练Gemini。

谷歌的v5p TPU在训练大型语言模型方面比TPU v4 快2. 8 倍，并且提供2. 1 倍的性价比。虽然今年早些时候发布的中间版本TPU v5e在三者中提供了最高的性价比，但它只比TPU v4 快1. 9 倍，这使得TPU v5p成为最强大的。

它甚至强大到足以与英伟达广受欢迎的H100 GPU相媲美，这是市场上最适合人工智能工作负载的显卡之一。根据该公司自己的数据，这个组件在训练工作负载方面比英伟达的A100 GPU快四倍。

与此同时，谷歌的TPU v4 据估计比A100 快1. 2 到1. 7 倍，这是根据它在四月份发布的研究结果。粗略的计算表明，TPU v5p大约比A100 快3. 4 到4. 8 倍，这使得它与H100 相当或者更优秀，尽管在得出任何结论之前，需要更详细的基准测试。