出门问问开放大模型“序列猴子”开源数据集

出门问问宣布，将向公众开放其超大规模语言模型“序列猴子”的部分训练数据集，命名为“序列猴子开源数据集1.0”。

序列猴子，作为出门问问的核心技术之一，具备强大的通用表示与推理能力，已在问答系统、自然语言处理、机器翻译、文本摘要等多个领域展现出其卓越的性能，极大地提高了生产效率和数据处理能力。

为了推动大语言模型技术的持续进步，出门问问决定将其部分训练数据集进行开源。这次开源的“序列猴子开源数据集1.0”包括中文通用文本语料、古诗今译语料以及文本生成语料，这些数据资源都经过精心挑选和整理，以确保其高质量和易用的数据格式。同时，公司采用了宽松的许可协议，为广大的开发者和研究人员提供了便捷的使用条件。

出门问问希望通过这一行动，吸引更多的人才和团队参与到大语言模型的研究与应用中来，共同推动这一前沿技术的持续进步。公司坚信，开源数据集的发布将促进学术交流与合作，加速相关领域的创新步伐。

项目地址：https://github.com/mobvoi/seq-monkey-data