Together AI发布RedPajama v2 用于大模型训练

Together AI发布了RedPajama v2，这是一个包含30万亿标记的数据集，旨在支持大型语言模型的研究和开发。高质量的数据对于这些模型的成功至关重要，但获取适当的数据集是一项繁琐的任务，需要大量时间、资源和金钱。

研究人员从CommonCrawl和其他公开可用的网络数据中提取了原始文本数据，其中包括40多个质量注释和去重集群。他们计划扩展这些注释，以包括与常用LLM基准的比较、主题建模和分类注释等内容，以促进更深入的研究。

地址:https://together.ai/blog/redpajama-data-v2

RedPajama v2的数据集还经过最小处理，以保持尽可能多的原始数据，并让模型构建者在后续处理中进行过滤和重新加权。这个数据集的覆盖面是前所未有的，涵盖了CommonCrawl的多个处理转储。

通过这一举措，研究人员为语言模型的开发和研究提供了更多的资源和工具，有助于改进模型的性能和应用领域。

这一数据集的发布对于AI研究和应用领域具有重要意义，为开发更强大的语言模型提供了支持和基础，有望推动AI领域的进一步发展。