OpenAI与第三方机构合作，构建新的AI训练数据集

OpenAI最近宣布了Data Partnerships计划，旨在与第三方机构合作，创建用于AI模型训练的公共和私有数据集。这一举措旨在解决现有AI模型训练数据集中存在的问题，其中包含有毒语言和偏见。

OpenAI的目标是培养更安全、更有益于全人类的AI。为了实现这一目标，他们计划采集“大规模”数据集，以反映人类社会，尤其是那些目前在网上难以获得的数据。这些数据将涵盖各种形式，包括图像、音频和视频，但重点是寻找能够表达人类意图的数据，例如长篇写作或对话，跨越不同语言、主题和格式。

OpenAI还承诺将与合作机构合作，必要时使用光学字符识别和自动语音识别工具将培训数据数字化，并在必要时删除敏感或个人信息。初期，他们计划创建两种类型的数据集:一个是公开的数据集，任何人都可以用于AI模型训练，另一个是用于训练专有AI模型的私有数据集，供希望保护数据隐私的机构使用。

尽管OpenAI提出了宏伟的目标，但也有人对其商业动机提出质疑。一些人认为，OpenAI的举措旨在改善其模型的性能，但可能会损害其他机构的利益，并未对数据拥有者作出合理的赔偿。这引发了关于透明度和数据使用权益的讨论。

OpenAI的Data Partnerships计划旨在推动AI模型的发展，但其实施和影响还有待观察。在克服数据集偏见等挑战方面，OpenAI是否能做得更好，仍有待验证。