新一代大语言模型 Meta Llama 3 横空出世!
前言
就在4月19日,Meta公司推出了他们最新开源的大型语言模型(LLM) Llama 3!这次的Llama 3包含了8B和70B两种不同参数规模的模型。那么作为Llama的第三代模型它的表现究竟如何呢?我们接着往下看。
了解Llama 3
作为一款新的大语言模型,大家最关注的肯定是他会在哪些平台上线。根据Meta官方宣布,Llama 3模型将在AWS / Databricks / Google Cloud / Hugging Face / Kaggle / IBM WatsonX / Microsoft Azure / NVIDIA NIM / Snowflake等多平台推出!这也代表着无论你是哪种用户,都有机会跳入技术飞跃的怀抱,一探AI技术的惊喜变革!
从目前来看,Llama 3 的8B版本可以适用于快速推理或需要少量计算资源的场景,而70B这一版本则是用于面对深层次的语言理解和生成,据Meta官方表示,他们之后还会推出拥有400B参数的模型,目前还在训练阶段。
性能比较
从Meta官方给出的数据报告来看,由于预训练和训练后的改进,预训练和指令微调模型是当今 8B 和 70B 参数规模的最佳模型。
不仅如此,Meta官方还研究了标准基准测试下的模型性能,并试图针对真实场景的性能进行优化。为此,他们开发了一套新的高质量人体评估集。该评估集包含 1,800 个提示,涵盖 12 个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、栖息角色/角色、开放式问答、推理、重写和总结。
上图显示了他们对这些类别的人工评估的汇总结果,并针对 Claude Sonnet、Mistral Medium 和 GPT-3.5 进行了提示。可以看出来Llama 3的数值对比都是比较出色的。
总结
从上文看来,Meta这次推出的Llama 3可以说是开源人工智能领域的一大进步。
而想要研发出如此强大的大语言模型,算力的支撑可以说是必不可少。而这所谓的“算力”你在厚德云就可以找到!
厚德云是一款专业的AI算力云平台,为用户提供稳定、可靠、易用、省钱的GPU算力解决方案。海量GPU算力资源租用,就在厚德云。