当前位置:AIGC资讯 > AIGC > 正文

每日AIGC最新进展(56):当下最强开源图片/视频理解模型CogVLM2发布

Diffusion Models专栏文章汇总:入门与实战

随着大型语言模型和多模态对齐技术的发展,视频理解模型在一般开放领域也取得了重大进展。然而,目前大多数视频理解模型使用帧平均和视频令牌压缩方法,导致时间信息的丢失和无法准确回答与时间相关的问题。另一方面,一些专注于时态问答数据集的模型过于局限于特定的格式和适用领域,导致模型失去了更通用的问答功能。本文提出了一种基于可视化模型的自动时序接地数据构建方法,生成了30k个与时间相关的视频问答数据。然后,基于该数据集和现有的开放域问答数据,引入多帧视频图像和时间戳作为编码器输入,训练新的视频理解模型——cogvlm2 - video。CogVLM2-Video不仅在公共视频理解基准上达到了最先进的性能,而且在视频字幕和时间接地方面也表现出色,为视频生成和视频摘要等后续任务提供了强大的工具。

目前&

总结

**文章总结:《Diffusion Models专栏文章汇总:入门与实战》特别议题探讨**
在当前的AI技术浪潮中,视频理解模型在开放领域取得了显著突破。然而,现有模型多采用帧平均和视频令牌压缩策略,这不可避免地导致了时间维度的信息流失,限制了模型处理时间敏感问题的能力。同时,部分专注于时态问答的模型虽精准,却因过度依赖特定格式和领域,牺牲了泛化性能。
为克服这一瓶颈,本文创新性地提出了一种利用可视化模型的自动时序接地数据构建技术,成功构建了包含30k时间点精确的视频问答数据集。基于此宝贵资源及现有的开放域数据,研究团队引入了多帧视频图像与时间戳作为编码器输入,开发出了全新的视频理解模型“cogvlm2-video”。
该模型不仅在标准视频理解测评中展现出领先的性能指标,更在复杂的时间接地和视频描述任务中脱颖而出,为视频生成、摘要等高级应用领域提供了强大的技术支持。cogvlm2-video的问世,标志着视频理解技术向更高度的时间敏感性和广泛适用性迈出了坚实的一步。

更新时间 2024-09-26