微软用GPT-4V解读长视频 MM-Vid能看懂电影还能讲给盲人听

近期，微软Azure AI发布了MM-Vid，这是一项结合GPT-4V与专用工具的创新，致力于解读长视频并为视障人士提供更好的体验。

目前，人工智能在长视频理解领域所面临的复杂挑战，包括分析多个片段、提取不同信息源、实时处理动态环境等。而MM-Vid的工作流程，包括多模态预处理、外部知识收集、视频片段描述生成和脚本生成等四个关键模块。通过GPT-4V，MM-Vid能够生成连贯的脚本，为后续任务提供全面的视频理解。

项目地址:https://multimodal-vid.github.io/

实验证明MM-Vid在多个任务上都取得了显著的成果，包括有根据的问答、多模态推理、长视频理解、多视频情景分析等。特别是在人物识别和说话人识别方面，通过采用视觉prompt设计，MM-Vid展现出更高的质量和准确性。

而MM-Vid在交互式环境中的应用，如具身智能体和玩视频游戏，证明其在持续接收流视频帧输入方面的有效性。

综合而言，微软的MM-Vid在大型多模态模型领域取得了显著进展，成功地将GPT-4V与专用工具集成，为视频理解提供了更强大的解决方案，不仅满足了常规视频理解的需求，还为视障人士提供了更丰富的体验。这一创新有望推动视觉领域的发展，使得语言模型在多模态环境下的应用更加广泛。