Intel研究人员提出新AI方法，更高效地在CPU上部署LLM

大型语言模型（LLM）因其在文本生成、语言理解和文本摘要等各种任务中的卓越性能而备受瞩目，但它们庞大的模型参数却需要大量内存和专用硬件，这使得部署这些模型变得相当具有挑战性。

为了降低推断所需的计算功率，研究人员通常采用权重量化等方法，即减少人工神经网络的权重和激活函数的精度。其中，INT8和仅权重量化是一些改进推断成本的方法。然而，这些方法通常针对CUDA进行优化，可能不适用于CPU。

Intel研究人员提出了一种有效的方法，可以在CPU上高效部署LLM。他们的方法支持自动的INT-4仅权重量化流程，即将低精度应用于模型的权重，而将激活函数的精度保持较高。此外，他们设计了一个特定的LLM运行时，具有高度优化的内核，可以加速CPU上的推断过程。

他们的权重量化流程基于Intel神经压缩器，并允许在不同的量化配方、粒度和组大小上进行调整，以生成满足准确性目标的INT4模型。然后，将模型传递给LLM运行时，这是一个专门设计用于评估量化模型性能的环境。该运行时已经设计用于在CPU上高效推断LLM。

在他们的实验中，研究人员选择了一些参数大小不同的流行LLM，范围从7B到20B。他们使用开源数据集评估了FP32和INT4模型的性能。他们观察到，在所选数据集上，量化模型的准确性几乎与FP32模型相当。此外，他们对下一个标记生成的延迟进行了比较分析，并发现LLM运行时比ggml-based解决方案性能提高了多达1.6倍。

研究论文提出了解决LLM推断在CPU上的一个最大挑战的方法。传统上，这些模型需要像GPU这样的专用硬件，这使它们对许多组织来说不可及。这篇论文提出了INT4模型量化以及专门的LLM运行时，以在CPU上高效推断LLM。

在一组流行的LLM上进行评估时，该方法表现出比ggml-based解决方案更具优势，并且在准确性上与FP32模型相当。然而，还有进一步改进的空间，研究人员计划推动在个人计算机上实现生成式人工智能，以满足对人工智能生成内容不断增长的需求。

项目网址：https://github.com/intel/intel-extension-for-transformers