每日AIGC最新进展(20)：基于树的长视频理解VideoTree、IBM研究院提出AI生成图片生成检测、蚂蚁集团提出AI生成视频检测工具、CMU提出大型视频-语言模型

Diffusion Models专栏文章汇总：入门与实战

VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos

本文介绍了一种名为VideoTree的新框架，旨在提高长视频理解任务中的推理能力。VideoTree通过自适应和分层的方法，动态提取与查询相关的视频帧，并构建基于树的视频表示，以供大型语言模型(LLMs)进行推理。这种方法针对以往长视频理解中存在的信息过载、缺乏查询适应性以及无法捕捉粗到细的视频结构等问题，提出了有效的解决方案。

VideoTree的核心在于其自适应宽度扩展、相关性引导的深度扩展和基于LLM的视频推理三个步骤。首先，通过视觉聚类和相关性评分，动态选择与查询相关的帧进行标注。然后，根据评分结果，对最相关的视

ide llm 长视频自适应语言模型大型语言模型解决方案 llms lms diffusion aso 信息过载