当前位置:AIGC资讯 > 视觉语言对齐
-
Video-LLaMA 论文精读
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding video-LLaMA 一种用于视频理解的指令调整视听语言模型 引言 ...
-
Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于视频理解的指令调谐视听语言
1.摘要 我们提出了一个多模态框架Video-LLaMA1,它使大型语言模型(LLM 能够理解视频中的视觉和听觉内容。视频-来自冻结的预训练视频和音频编码器和冻结的LLM的美洲驼引导跨模式训练。不像以前的工作,补充线性最小二乘法只处理视觉或听觉信号...
第一页
1
没有了