Intel首批通过AISBench大模型性能测试！5代至强可达每秒2493 token

快科技9月5日消息，近日，第五代英特尔至强处理器，以优秀的表现通过了中国电子技术标准化研究院组织的人工智能服务器系统性能测试（AISBench）。

借此，英特尔也成为首批通过AISBench大语言模型（LLM）推理性能测试的企业。

在AISBench 2.0测试工具的评估下，第五代英特尔至强处理器在ChatGLM V2-6B（60亿参数）和Llama2-13B（130亿参数）两个模型上均展现了卓越的性能，能够满足轻量级大语言模型的实时推理要求。

测试结果显示，在60亿参数的ChatGLM V2模型通用推理中，当输入输出序列为256时，处理器可达每秒2493 token的性能；当输入输出序列为2048时，性能为每秒926 token。

在130亿参数的Llama2模型通用推理中，当输入输出为256时，性能为每秒513 token；当输入输出序列为2048时，性能为每秒132 token。

AISBench 2.0的测试结果，验证了英特尔至强在运行轻量级大语言模型时展现出的优异推理性能。

也使得客户可以通过基于至强的服务器，构建一个通用AI系统进行数据预处理、模型推理和部署，从而获得兼具AI性能、效率、准确性和可扩展性的组合。

同时还彰显了英特尔至强可以为企业提供开箱即用”的功能，即可以在通用系统上部署一部分AI工作负载，从而为客户带来更佳的总体拥有成本（TCO）优势。

总结

**新一代英特尔至强处理器在人工智能测评中大放异彩**
近日，英特尔公司宣布其最新一代至强处理器在中国电子技术标准化研究院组织的人工智能服务器系统性能测试（AISBench）中表现出色，特别是特别在针对大语言模型（LLM）的推理性能测试中，成功脱颖而出，成为首批通过测评的企业。
在AISBench 2.0这一权威测试工具的严格评估下，第五代英特尔至强处理器在处理轻量级大语言模型时展现出了令人瞩目的性能。无论是在ChatGLM V2-6B（60亿参数）还是Llama2-13B（130亿参数）模型上，该处理器均能轻松应对，充分满足了实时推理的需求。
具体测试结果更是亮眼：在处理ChatGLM V2模型的通用推理任务时，处理器在输入输出序列为256时的性能达到每秒2493 token，即便输入输出序列增加到2048，其性能依然保持在每秒926 token的高位。而对于更为复杂、参数量更大的Llama2模型，在相同条件下，其推理性能依旧出众，分别达到每秒513 token（输入输出为256）和每秒132 token（输入输出为2048）。
这些卓越的表现不仅验证了英特尔至强处理器在运行轻量级大语言模型时的优异推理能力，更为用户提供了构建高效能、高效率、高准确性及高可扩展性通用AI系统的可能。通过基于至强处理器的服务器，用户可以轻松实现数据的预处理、模型的推理与部署，享受AI技术带来的便利与效益。
此外，英特尔至强处理器的出色表现还进一步展示了其为企业提供“开箱即用”的解决方案能力。这意味着企业可以在通用系统上快速部署AI工作负载，无需复杂的配置与调整过程，从而大幅度降低总体拥有成本（TCO），为企业赢得更多的市场优势。

token 语言模型大语言模型性能测试 chat llama2 服务器 llama 轻量级人工智能可扩展性准确性测试工具可扩展 llm ai系统解决方案高效率快速部署数据预处理