如何突破大语言模型的最大瓶颈

译者 | 布加迪

审校 | 重楼

OpenAI的GPT-4和Anthropic的Claude 2等大语言模型（LLM）已经凭借其生成人类级文本的功能激发了公众的想象力。企业也同样热情高涨，许多企业在探索如何利用LLM改进产品和服务。然而，一大瓶颈严重制约了最先进的LLM在生产环境中的采用，那就是速率限制。有一些方法可以突破这种速率限制，但如果没有计算资源方面的改进，真正的进步可能不会到来。

承担成本

公共LLM API允许用户访问OpenAI和Anthropic等公司的模型，对每分钟可以处理的token（文本单位）的数量、每分钟的请求数量以及每天的请求数量施加了严格的限制。

对OpenAI GPT-4的API调用目前限制为每分钟3个请求（RPM）、每天200个请求，以及每分钟最多10000个token（TPM）。最高档允许10000 RPM和300000 TPM的限制。

针对每分钟需要处理数百万个token的大型生产级应用程序，这种速率限制使得企业使用最先进的LLM实际上行不通。请求不断增多，需要几分钟乃至几小时，无法进行任何实时处理。

大多数企业仍在竭力安全有效地大规模采用LLM。但是即使它们解决了数据敏感性和内部流程方面的挑战，速率限制也成为一个顽固的障碍。随着产品使用和数据的积累，围绕LLM开发产品的初创公司很快就会遇到瓶颈，但拥有庞大用户群的大企业受到的限制最大。如果没有特殊的访问机制，它们的应用程序根本无法运行。

该怎么办？

规避速率限制

一条路子是完全绕过速率限制技术。比如说，有些特定用途的生成式AI模型没有LLM瓶颈。总部位于英国牛津的初创公司Diffblue依赖没有速率限制的强化学习技术。它在一件事上做得非常好，非常有效，可能覆盖数百万行代码。它自主创建Java单元测试的速度是开发人员的250倍，编译速度是开发人员的10倍。

由Diffblue Cover编写的单元测试使您能够快速了解复杂的应用程序，从而使大企业和初创公司都能够满怀信心地进行创新，这对于将遗留应用程序迁移到云端是理想选择。它还可以自主地编写新代码、改进现有代码、加速CI/CD管道，在不需要人工审查的情况下深入洞察与变更相关的风险。这不赖。

当然，一些公司不得不依赖LLM。它们又有什么选择？

增加计算资源

一种选择就是请求提高公司的速率限制。到目前为止这个做法不错，但潜在的问题是，许多LLM提供商实际上没有额外的能力好提供。这是问题的症结所在。GPU可用性取决于来自台积电等代工厂的硅圆片总数。占主导地位的GPU制造商英伟达无法采购足够的芯片来满足AI工作负载带来的爆炸式需求，大规模推理需要成千上万个GPU组合在一起。

增加GPU供应量的最直接方法是建造新的半导体制造工厂，即所谓的晶圆厂。但是一座新的晶圆厂造价高达200亿美元，需要数年才能建成。英特尔、三星代工、台积电、德州仪器等主要芯片制造商正在美国建设新的半导体生产设施。眼下，所有人只能等待。

因此，利用GPT-4的实际生产部署很少。真正部署GPT-4的环境范围有限，它们使用LLM作为辅助功能，而不是作为核心产品组件。大多数公司仍在评估试点和概念验证。在考虑速率限制之前，本身就需要将LLM集成到企业工作流程中。

寻找答案

GPU制约限制了GPT-4的处理能力，这促使许多公司使用其他生成式AI模型。比如说，AWS拥有自己的专门用于训练和推理的芯片（一旦训练好就运行模型），从而为客户提供了更大的灵活性。重要的是，并不是每个问题都需要最强大、最昂贵的计算资源。AWS提供了一系列更便宜、更容易调优的模型，比如Titan Light。一些公司在探索替代方案，比如对Meta的Llama 2等开源模型进行微调。针对涉及检索增强生成（RAG）、需要将上下文附加到提示并生成响应的简单用例，功能较弱的模型就足够了。

另一些技术也有所帮助，比如跨多个具有较高限制的旧LLM并行处理请求、数据分块和模型蒸馏。有几种技术可以降低推理的成本、提高速度。量化降低了模型中权重的精度，权重通常是32位浮点数。这不是一种新方法。比如说，谷歌的推理硬件张量处理单元（TPU）只适用于权重被量化为8位整数的模型。该模型失去了一些准确性，但变得小巧得多，运行起来更快。

一种名为“稀疏模型”的新流行技术可以降低训练和推理的成本，耗费的人力比模型蒸馏更少。LLM好比是许多较小语言模型的集合。比如说，当您用法语向GPT-4询问问题时，只需要使用模型的法语处理部分，稀疏模型就利用了这个特点。

您可以做稀疏训练，只需要训练模型的法语子集，也可以做稀疏推理，只运行模型的法语部分。与量化一起使用时，这可以从LLM中提取更小的专用模型，这种模型可以在CPU而不是GPU上运行。GPT-4之所以出名，是由于它是一个通用文本生成器，而不是更狭窄、更特定的模型。

在硬件方面，专门针对AI工作负载的新处理器架构有望提高效率。Cerebras已经研制了一种巨大的晶圆级引擎，针对机器学习进行了优化，而Manticore正在改造制造商丢弃的“废弃”GPU芯片，以提供实用的芯片。

最终，最大的成效将来自需要更少计算的下一代LLM。结合经过优化的硬件，未来的LLM可以突破目前的速率限制障碍。目前，众多渴望的公司竞相要求利用LLM的功能，生态系统不堪重负。那些希望在AI领域开辟新道路的人可能需要等到GPU供应进一步趋缓之后。具有讽刺意味的是，这些限制可能恰恰有助于撇除围绕生成式AI的一些泡沫炒作，让这个行业有时间适应积极的模式，以便高效经济地使用它。

原文标题：The biggest bottleneck in large language models，作者：Matt Asay