当前位置:AIGC资讯 > AIGC > 正文

llama 3 震撼来袭 8B 150k 词元 8Ktoken长度 4T token 参与预训练与对齐训练 使用GQA

Meta开发了并发布了Meta Llama 3系列大型语言模型(LLMs),这是一组在8亿和70亿参数规模下预训练和指令调整的生成文本模型。Llama 3的指令调整模型针对对话用例进行了优化,并在常见的行业基准测试中超越了众多开源聊天模型。在开发这些模型时,我们特别注重优化其有益性和安全性。
模型开发者:Meta
变体:Llama 3提供两种大小——8B和70B参数——分别有预训练和指令调整版本。
输入:模型仅输入文本。
输出:模型仅生成文本和代码。
模型架构:Llama 3是一个使用优化变压器架构的自动回归语言模型。调整后的版本使用监督式微调(SFT)和基于人类反馈的强化学习(RLHF)来与人类对有益性和安全性的偏好保持一致。
训练数据:

Llama 3:混合了公开可用的在线数据。8B参数版本于2023年3月截止,70B参数版本于2023年12月截止。 两个版本都使用分组查询注意力(GQA)来提高推理的可扩展性。
模型发布日期:2024年4月18日。
状态:这是一个在离线数据集上训练的静态模型。随着我们通过社区反馈改进模型安全性,将发布调整后的模型的未来版本。
许可证:可在https://llama.meta.com/llama3/license 获取自定义商业许可证。
如何提供有关模型的反馈或评论:有关如何提供模型反馈或评论的说明可以在模型自述文件中找到。有关生成参数和如何在应用程序中使用Llama 3的更多信息,请访问相关链接。
预期用途: 预期用途:Llama 3旨在用于英语的商业和研究用途。指令调整模型旨在用于类似助手的聊天,而预训练模型可用于各种自然语言生成任务。 不在范围内的用途:任何违反适用法律或法规(包括贸易合规法律)的使用方式;任何违反《可接受使用政策》和《Llama 3社区许可证》的禁止使用方式;在非英语语言中的使用。
注意: 开发者可以将Llama 3模型针对超出英语的语言进行微调,前提是他们遵守《Llama 3社区许可证》和《可接受使用政策》。
如何使用: 使用transformers库:
import transformers
import torch
model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device="cuda",
)
messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]
prompt = pipeline.tokenizer.apply_chat_template(
    messages, 
    tokenize=False, 
    add_generation_prompt=True
)
terminators = [
    tokenizer.eos_token_id,
    tokenizer.convert_tokens_to_ids("<|eot_id|>")
]
outputs = pipeline(
    prompt,
    max_new_tokens=256,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])
使用llama3代码库:请遵循仓库中的说明进行操作。
硬件和软件: 训练因素:我们使用了自定义训练库、Meta的研究超级计算集群和生产集群进行预训练。微调、注释和评估也在第三方云计算上执行。 碳足迹:预训练使用了累计770万GPU小时的计算量,使用的硬件类型为H100-80GB(热设计功率为700W)。估计的总排放量为2290吨二氧化碳当量,其中100%由Meta的可持续性计划抵消。 CO2排放:在预训练期间,每个模型的训练所需的GPU时间和功耗以及由此产生的二氧化碳排放量。由于我们公开发布了这些模型,因此其他人无需承担预训练的成本。
训练数据: 概述:Llama 3在超过1500万亿个令牌的公开可用数据上进行了预训练。微调数据包括公开可用的指令数据集以及超过1000万个由人类注释的示例。预训练和微调数据集都不包括Meta用户数据。 数据新鲜度:7B模型的预训练数据截止于2023年3月,而70B模型的预训练数据截止于2023年12月。
基准测试: 在本节中,报告了Llama 3模型在标准自动基准测试中的结果。对于所有评估,我们使用我们内部的评估库。有关方法的详细信息,请参阅相关链接。
责任与安全: 我们相信开放的AI方法可以带来更好、更安全的产品,更快的创新以及更大的整体市场。

更新时间 2024-06-23