北大推出首个多轮多模态PPT任务完成基准PPTC GPT-4完成正确率仅6%

北大和微软亚洲研究院的研究人员提出了一项新的评估基准PPTC，旨在评估大型语言模型在复杂多轮多模态PPT任务中的表现。

他们通过创建包含数百个多模态指令的数据集，挑战大模型在多轮人机对话中生成PPT文档的能力。结果显示，GPT-4在创建新PPT文档任务中表现良好，达到了75%的轮次层面正确率，但仍然面临三个主要挑战。

项目地址:https://github.com/gydpku/PPTC

首先，错误累积导致大模型在单元层面的表现不佳。其次，大模型处理长PPT模板的能力有限，导致编辑任务的错误。最后，多模态指令增加了任务的复杂性，特别是涉及到空间位置操作的指令。

研究人员还尝试了不同的算法和方法，如计划算法和API选择算法，以提高性能，但发现思维树等方法并没有明显改进性能。这项研究为理解大型语言模型在多模态环境中的表现提供了有益的见解，同时也提出了未来的挑战和改进方向。