当前位置:AIGC资讯 > AIGC > 正文

Llama 3 与 GPT-4:哪个更好?

Llama 3 和 GPT-4 是目前公开可用的两种最先进的大型语言模型(LLM)。让我们通过比较这两个模型的多模态性、上下文长度、性能和成本,来看看哪个 LLM 更好。

什么是 GPT-4?

GPT-4 是 OpenAI 开发的最新大型语言模型(LLM)。它基于旧的 GPT-3 模型,并使用了不同的训练技术和优化方法,利用了更大规模的数据集。这显著增加了 GPT-4 的参数量,据传其较小的专家模型总共有 1.7 万亿个参数。通过新的训练、优化和更多的参数,GPT-4 在推理、解决问题、上下文理解以及处理复杂指令方面提供了改进。

目前有三种模型变体:

GPT-4: 是 GPT-3 的进化版,在速度、准确性和知识库方面有显著提升。

GPT-4 Turbo: 是 GPT-4 的优化版本,旨在提供更快的性能,同时降低运营成本。

GPT-4o(Omni): 扩展了 GPT-4 的能力,集成了多模态输入和输出,包括文本、视觉和音频。

什么是 Llama 3?

Llama 3 是由 Meta AI(Facebook、Instagram 和 WhatsApp 的母公司)开发的开源大型语言模型(LLM)。它使用监督微调、拒绝采样和策略优化相结合的方式进行训练,使用包括数百万个人工标注示例在内的多样化数据集。其训练重点是高质量的提示和偏好排名,旨在创建一个多才多艺且功能强大的 AI 模型。

目前有两种 Llama 3 模型向公众开放:Llama 3 8B 和 Llama 3 70B。这里的 “B” 代表十亿,指的是模型的参数规模。Meta 还在训练一个 Llama 3 400B 模型,预计将在 2024 年底发布。

您可以通过 Meta AI 访问 Llama 3 及其生成式 AI 聊天机器人。或者,您可以下载 Llama 3 模型并通过 Ollama、Open WebUI 或 LM Studio 在本地计算机上运行这些 LLMs。

多模态性

GPT-4o 的发布终于兑现了 GPT-4 在最初营销时所宣传的多模态功能。现在可以通过使用 GPT-4o 模型与 ChatGPT 互动来访问这些多模态功能。截至 2024 年 6 月,GPT-4o 还没有生成视频和音频的集成功能,但它确实具备基于视频和音频输入生成文本和图像的能力。

Llama 3 也计划为即将推出的 Llama 3 400B 提供一个多模态模型。它很可能会整合类似于 CLIP(对比语言-图像预训练)技术,通过零样本学习 技术生成图像。但由于 Llama 400B 仍在训练中,8B 和 70B 模型生成图像的唯一方法是使用诸如 LLaVa、Visual-LLaMA 和 LLaMA-VID 等扩展。目前,Llama 3 纯粹是一个基于语言的模型,可以接受文本、图像和音频作为输入来生成文本。

上下文长度

上下文长度是指模型一次可以处理的文本量。这是考虑大型语言模型(LLM)能力时的重要因素,因为它决定了模型在与用户互动时可以处理的上下文量。一般来说,更高的上下文长度使 LLM 更好,因为它提供了更高的连贯性和连续性,并且可以减少交互中的重复错误。

Llama 3 模型的上下文长度实际上是 8,000 个标记(约 6,400 个单词)。这意味着 Llama 3 模型在交互过程中将具有大约 6,400 个单词的上下文记忆。超过 8,000 个标记的单词将被遗忘,不会在交互中提供任何进一步的上下文。

相比之下,GPT-4 现在支持 ChatGPT 用户使用 32,000 个标记(约 25,600 个单词)的显著更大的上下文长度,而使用 API 端点的用户则支持 128,000 个标记(约 102,400 个单词)。这使得 GPT-4 模型在处理广泛的对话和阅读长篇文档甚至整本书时具有优势。

性能

让我们通过查看 Meta AI 2024年4月18日发布的 Llama 3 基准报告 和 OpenAI 2024年5月14日发布的 GPT-4 基准报告 来比较性能。以下是结果:

每个评估标准的意义如下:

MMLU(大规模多任务语言理解): 评估模型理解和回答各种学术科目问题的能力。

GPTQA(通用问题回答): 评估模型回答开放领域事实性问题的能力。

MATH: 测试模型解决数学问题的能力。

HumanEval: 测量模型根据人类提供的编程提示生成正确代码的能力。

DROP(段落离散推理): 评估模型基于文本段落进行离散推理和回答问题的能力。

最近的基准测试突显了 GPT-4 和 Llama 3 模型之间的性能差异。尽管 Llama 3 8B 模型明显落后,但 70B 和 400B 模型在学术和通用知识、阅读和理解、推理和逻辑以及编码方面提供了较低但相似的结果,接近 GPT-4o 和 GPT-4 Turbo 模型。然而,在纯数学性能方面,没有 Llama 3 模型能够接近 GPT-4 的表现。

成本

成本是许多用户关注的重要因素。OpenAI 的 GPT-4o 模型对所有 ChatGPT 用户免费开放,每 3 小时限 16 条消息。如果需要更多,则必须订阅 ChatGPT Plus,每月费用为 20 美元,以将 GPT-4o 的消息限制扩展到 80 条,同时还可以访问其他 GPT-4 模型。

另一方面,Llama 3 的 8B 和 70B 模型是免费且开源的,这对于希望在不影响性能的情况下寻找经济高效解决方案的开发者和研究人员来说,是一个显著的优势。

可访问性

GPT-4 模型通过 OpenAI 的 ChatGPT 生成式 AI 聊天机器人和其 API 广泛可用。您还可以在 Microsoft Copilot 上使用 GPT-4,这是 使用 GPT-4 免费的方式之一。这种广泛的可用性确保用户可以在不同的用例中轻松利用其功能。相比之下,Llama 3 是一个开源项目,提供模型灵活性并鼓励 AI 社区内更广泛的实验和合作。这种开放访问方法可以使 AI 技术民主化,让更广泛的受众可以使用它。

虽然这两个模型都容易获取,但由于 GPT-4 集成到流行的生产力工具和服务中,因此使用起来更加简单。另一方面,Llama 3 主要集成到 Amazon Bedrock、Ollama 和 DataBricks 等研究和商业平台中,这对非技术用户来说吸引力较小。

GPT-4 与 Llama 3:哪个更好?

那么,哪个 LLM 更好呢?我不得不说,GPT-4 是更好的 LLM。GPT-4 在多模态性方面表现出色,能够处理文本、图像和音频输入,而 Llama 3 的类似功能仍在开发中。GPT-4 还提供了更大的上下文长度、更好的性能,并且通过流行的工具和服务广泛可用,使其更具用户友好性。

然而,重要的是要强调 Llama 3 模型作为一个免费且开源的项目,表现异常出色。因此,Llama 3 仍然是一个杰出的 LLM,受到研究人员和企业的青睐,因为它是免费的开源项目,同时提供了令人印象深刻的性能、灵活性和可靠的隐私功能。虽然普通消费者可能不会立即使用 Llama 3,但对于许多研究人员和企业来说,它仍然是最可行的选择。

总之,虽然 GPT-4 因其先进的多模态功能、更大的上下文长度和无缝集成到广泛使用的工具中而脱颖而出,但 Llama 3 通过其开源性质提供了一个有价值的替代方案,允许更大的定制和成本节省。因此,在应用方面,GPT-4 适合那些寻求易用性和全面功能的人,而 Llama 3 则适合那些寻求灵活性和适应性的开发人员和研究人员。

总结

本文比较了目前最先进的两种大型语言模型GPT-4和Llama 3。GPT-4是OpenAI开发的模型,具有多模态性、更大的上下文长度、出色的性能,并通过流行工具广泛可用。而Llama 3由Meta AI开发,是一个免费且开源的项目,具有灵活性并将多模态功能仍在开发中。通过基准测试,尽管Llama 3在某些方面接近GPT-4的表现,但GPT-4在数学性能方面更为出色。成本方面,Llama 3提供免费和开源的模型,而GPT-4则提供有限免费使用和订阅服务。综上所述,GPT-4更适合追求易用性和全面功能的用户,而Llama 3则适合寻求灵活性和成本节约的开发人员和研究人员。

更新时间 2024-07-12