当前位置:AIGC资讯 > AIGC > 正文

每日AIGC最新进展(20):基于树的长视频理解VideoTree、IBM研究院提出AI生成图片生成检测、蚂蚁集团提出AI生成视频检测工具、CMU提出大型视频-语言模型

Diffusion Models专栏文章汇总:入门与实战

VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos

本文介绍了一种名为VideoTree的新框架,旨在提高长视频理解任务中的推理能力。VideoTree通过自适应和分层的方法,动态提取与查询相关的视频帧,并构建基于树的视频表示,以供大型语言模型(LLMs)进行推理。这种方法针对以往长视频理解中存在的信息过载、缺乏查询适应性以及无法捕捉粗到细的视频结构等问题,提出了有效的解决方案。

VideoTree的核心在于其自适应宽度扩展、相关性引导的深度扩展和基于LLM的视频推理三个步骤。首先,通过视觉聚类和相关性评分,动态选择与查询相关的帧进行标注。然后,根据评分结果,对最相关的视

更新时间 2024-06-28