中国团队开源大规模高质量图文数据集ShareGPT4V

中国团队最近开源了一个引人瞩目的图文数据集，命名为ShareGPT4V，它基于GPT4-Vision构建，训练了一个7B模型。这一举措在多模态领域取得了显著的进展，超越了同级别的模型。

该数据集包含了120万条图像-文本描述数据，涵盖了世界知识、对象属性、空间关系、艺术评价等多个方面，在多样性和信息涵盖度上明显优于现有数据集。

论文地址:https://arxiv.org/abs/2311.12793

Demo演示:https://huggingface.co/spaces/Lin-Chen/ShareGPT4V-7B

项目地址:https://github.com/InternLM/InternLM-XComposer/tree/main/projects/ShareGPT4V

多模态模型的性能在很大程度上受制于模态对齐的效果，而现有工作中缺乏大规模高质量的图像-文本数据。为了解决这一问题，中科大和上海AI Lab的研究者们推出了ShareGPT4V，这是一个开创性的大型图文数据集。

通过对GPT4-Vision模型产生的10万条图像-文本描述数据进行深入研究，他们成功构建了这一高质量的数据集，涉及的内容丰富多样，包括世界知识、艺术评价等。

这一数据集的推出为多模态研究和应用奠定了新的基石。在实验中，研究者们展示了ShareGPT4V数据集在多种架构和参数规模的多模态模型中的有效性。通过等量替换实验，他们成功提升了多种模型的性能。

最终，通过在预训练和有监督微调阶段同时使用ShareGPT4V数据集，他们得到了ShareGPT4V-7B模型，在多模态基准测试中取得了优异的成绩。

这一研究为未来的多模态研究和应用提供了有力支持，也促使多模态开源社区关注高质量图像描述的开发，预示着更强大、智能的多模态模型的出现。这一成果对于推动人工智能领域的发展具有积极的意义。