Together AI最近发布了RedPajama v2,这是一个庞大的在线数据集,包含了30万亿token,成为目前公开可用的最大数据集之一,专门用于学习型机器学习系统的培训。
对于像Llama、Mistral、Falcon、MPT和RedPajama等最先进的开放式LLM,高质量的数据至关重要,但由于HTML到纯文本的转换引发的异常、通常质量较低的数据来源以及网络内容传播中固有的偏见,这些数据未经精细处理,不适合直接用于LLM的培训。因此,获取正确的数据集和数据混合是一项耗时、资源丰富且昂贵的任务。
注:图片来自项目官网
此前,Together.ai的研究人员已经发布了RedPajama-1T,这是一个5TB的数据集,其中包含了1万亿高质量的英语token,但他们并未止步于此。RedPajama-V2是它的继续,构建了一个30万亿token的在线数据集。
研究团队认为,RedPajama-Data-v2将为LLM培训提供一个在线数据的存储库,可用作提取高质量数据集的基础,并为深入研究LLM培训数据提供基础。值得注意的是,RedPajama-V2强调了对CommonCrawl的覆盖,包括84个已处理的抓取数据,而且还包括了40多个高质量注释,这些注释是通过多个ML分类器对数据质量、minhash结果等进行的,可用于模糊去重或启发式操作。LLM开发者可以使用这些注释来快速轻松地生成自己的自定义预训练数据集,通过切片和筛选公开可用的数据。
RedPajama-V2的主要焦点是CommonCrawl,它是从头开始构建的,使用了84个CommonCrawl的抓取数据和其他公开可用的网络数据。该数据集包括原始数据(纯文本)、40多个高质量注释和去重集群。为了保持尽可能多的数据原始性,并让模型构建者在流水线中进行自己的筛选和重新加权,每个CommonCrawl快照都首先经过CCNet流水线的处理。同时,研究人员还计算了40多个最流行的高质量注释,以及由CCNet处理的文本文档。这些注释的主要目标是促进对其最佳用法的研究,并使下游模型开发者能够根据自己的标准对数据集进行筛选或重新加权。此外,他们还希望随着社区的帮助,逐渐添加更多的高质量信号。
RedPajama-V2包括了1130亿份文档,涵盖了英语、德语、法语、西班牙语和意大利语,是通过处理84个CommonCrawl抓取数据而获得的。尽管去重后,头部和中部分区的文档和token数量减少了60%,但文档数量减少了71%,这表明尾部的文档通常较短。使用Bloom过滤器对头部和中部文档进行去重后,数据集减少了大约40%。文本文档占据了数据集的大部分内容,包括高质量注释和去重集群,其布局与CCNet规定的非常相似。
研究团队希望很快扩展他们目前的高质量注释集,包括与广泛使用的LLM基准相比的污染注释、每个文档的主题建模和分类注释,以及引起社区兴趣的其他注释。这一工作将为LLM领域的研究和应用提供更多的有力数据支持。
https://github.com/togethercomputer/RedPajama-Data