2023 年 2 月 24 日
更新:我们刚刚推出了Llama 2 - 有关最新信息的更多信息,请参阅我们关于 Llama 2 的博客文章。
作为 Meta 致力于开放科学的一部分,今天我们公开发布 LLaMA(大型语言模型 Meta AI),这是一种最先进的基础大型语言模型,旨在帮助研究人员推进人工智能这一子领域的工作。更小、性能更高的模型(例如 LLaMA)使研究界中无法访问大量基础设施的其他人能够研究这些模型,从而进一步实现这一重要且快速变化的领域的访问民主化。
在大型语言模型空间中训练像 LLaMA 这样的小型基础模型是可取的,因为它需要更少的计算能力和资源来测试新方法、验证其他人的工作并探索新的用例。基础模型在大量未标记数据上进行训练,这使得它们非常适合对各种任务进行微调。我们正在提供多种尺寸的 LLaMA(7B、13B、33B 和 65B 参数),并共享 LLaMA 模型卡,其中详细说明了我们如何根据我们的负责任的 AI 实践方法构建模型。
去年,大型语言模型——具有数十亿参数的自然语言处理 (NLP) 系统——展现出了生成创意文本、解决数学定理、预测蛋白质结构、回答阅读理解问题等的新功能。它们是人工智能可以为数十亿人大规模提供巨大潜在好处的最明显案例之一。
尽管大型语言模型最近取得了所有进展,但由于训练和运行如此大型模型所需的资源,对它们的全面研究访问仍然有限。这种受限的访问限制了研究人员理解这些大型语言模型如何以及为何工作的能力,阻碍了提高其稳健性和缓解已知问题(例如偏见、毒性和产生错误信息的可能性)的努力的进展。
在更多标记(即单词片段)上训练的较小模型更容易针对特定的潜在产品用例进行重新训练和微调。我们在 1.4 万亿个代币上训练了 LLaMA 65B 和 LLaMA 33B。我们最小的模型 LLaMA 7B 经过一万亿代币one trillion tokens的训练。
与其他大型语言模型一样,LLaMA 的工作原理是将单词序列作为输入并预测下一个单词以递归地生成文本。为了训练我们的模型,我们从使用人数最多的 20 种语言中选择了文本,重点关注拉丁字母和西里尔字母的语言。
还需要进行更多的研究来解决大型语言模型中的偏见、有毒评论和幻觉的风险。与其他模型一样,LLaMA 也面临着这些挑战。作为基础模型,LLaMA 被设计为多功能的,可以应用于许多不同的用例,而不是为特定任务设计的微调模型。通过共享 LLaMA 的代码,其他研究人员可以更轻松地测试在大型语言模型中限制或消除这些问题的新方法。我们还在本文中提供了一系列评估模型偏差和毒性的基准评估,以显示模型的局限性并支持这一关键领域的进一步研究。
为了保持完整性并防止滥用,我们将在专注于研究用例的非商业许可下发布我们的模型。将根据具体情况向学术研究人员授予使用该模型的权限;隶属于政府、民间社会和学术界组织的人员;以及世界各地的行业研究实验室。有兴趣申请访问权限的人可以在我们的研究论文中找到该申请的链接。
我们认为,整个人工智能社区——学术研究人员、民间社会、政策制定者和行业——必须共同努力,围绕负责任的人工智能,特别是负责任的大型语言模型制定明确的指导方针。我们期待看到社区可以使用 LLaMA 学习并最终构建什么。