新AI框架 AboutMe：用网页中自我描述来记录英语预训练数据过滤器的效果

随着自然语言处理和自然语言生成的进步，大型语言模型（LLMs）在实际应用中得到了广泛使用。由于它们能够模仿人类行为，并具有通用性，这些模型已经涉足各个领域。

虽然这些模型引起了相当大的关注，但它们代表了一组受限和偏向的人类观点和知识。预训练数据的组成是造成这种偏见的原因，因为它对模型的行为产生了重大影响。

图源备注：图片由AI生成，图片授权服务商Midjourney

研究人员一直在努力着重理解和记录在预训练之前对数据所做的转换。预训练数据的筛选是一个多步骤的过程，其中有多个决策点，这些决策点通常基于主观的文本质量判断或与基准测试的性能。

最近，来自艾伦人工智能研究所、加利福尼亚大学伯克利分校、埃默里大学、卡内基梅隆大学和华盛顿大学的研究人员介绍了一个名为 AboutMe 的新数据集和框架。该研究强调了数据筛选工作流中存在的许多未经质疑的假设。通过 AboutMe，研究团队试图记录对社会和地理背景相关的文本进行数据过滤的影响。

在自然语言处理中，缺乏与语言数据相关联的广泛的自我报告社会人口学数据是一个问题。文本可以追溯到维基百科等一般来源，但在更细粒度的层面上，通常不知道谁创建了这些信息。在这项研究中，研究团队利用 Web 数据中的预设模式，找到了网站，特别是 “关于我” 页面。这使得我们可以对被网络爬虫获取的文本中所代表的语言的创作者有前所未有的了解。

研究人员将网络文本（一种流行的预训练数据源）与其社会和地理背景联系起来。研究团队使用来自网站的 “关于我” 部分的数据，进行社会语言学分析，测量了网站作者的兴趣、社会角色、关联地理位置等。他们创建了一个包含1030万个网站创建者自我描述的新数据集，并提取有关他们是谁、来自哪里的信息:他们的主题兴趣、社会角色和地理归属。

然后，他们对这些网页应用了之前在 LLM 开发研究中使用的十个质量和英语 ID 过滤器，以检查过滤对保留或删除页面的影响。

研究团队表示，他们的主要目标是发现在过滤器内部和之间，与网站来源相关的行为趋势。结果显示，基于模型的质量过滤器显示出对特定主题领域的隐含偏好，导致与各种专业和职业相关的文本以不同的比率被删除。此外，那些假设页面是单语言的过滤技术可能无意中删除了来自非英语地区的内容。

这项研究突显了 LLM 开发过程中数据筛选的复杂性以及对语言模型中各种观点呈现的影响。该研究的主要目标是提高人们对预训练数据筛选程序的细节的认识，尤其是在考虑社会因素时。研究团队强调了对预训练数据筛选程序及其社会影响进行更多研究的需求。

项目网址：https://github.com/lucy3/whos_filtered

论文网址：https://arxiv.org/abs/2401.06408

​新AI框架 AboutMe：用网页中自我描述来记录英语预训练数据过滤器的效果

新AI框架 AboutMe：用网页中自我描述来记录英语预训练数据过滤器的效果