meta-llama/Meta-Llama-3-8B

https://huggingface.co/meta-llama/Meta-Llama-3-8B

型号细节

Meta开发并发布了Meta Llama 3家族大型语言模型(LLM),这是一组预训练和指令微调的生成性文本模型,大小为8B和70B参数。Llama 3指令微调模型针对对话用例进行了优化,在常见的行业基准测试中表现优于许多可用的开源聊天模型。此外,在开发这些模型时,我们非常谨慎地优化了有用性和安全性。

模型开发者 Meta

变体 Llama 3有两种尺寸 - 8B和70B参数 - 预训练和指令微调变体。

输入模型只接受文本输入。

输出模型只生成文本和代码。

模型架构 Llama 3是一种自回归语言模型,使用优化的transformer架构。经过调整的版本使用监督fine-tuning(SFT)和人工反馈强化学习(RLHF)来实现有用性和安全性方面的人类偏好对齐。

模型训练数据参数量上下文长度是否使用GQA 标记计数知识截止日期 Llama 3 新的公开在线数据组合 8B 8k 是 15T+ 2023年3月 Llama 3 新的公开在线数据组合 70B 8k 是 2023年12月

Llama 3系列模型。标记计数仅指预训练数据。8B和70B版本都使用Grouped-Query Attention(GQA)来提高推理可扩展

llama 预训练语言模型安全性训练数据人类偏好模型开发 huggingface 可扩展文本输入 fine-tuning llm 上下文聊天模型强化学习 transformer 开发者大型语言模型人工反馈