视觉语言对齐 - AIGC资讯

当前位置：AIGC资讯 > 视觉语言对齐

Video-LLaMA 论文精读

Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding video-LLaMA 一种用于视频理解的指令调整视听语言模型引言 ...

大数据 2024-01-22 人工智能
1012阅读
Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于视频理解的指令调谐视听语言

1.摘要我们提出了一个多模态框架Video-LLaMA1，它使大型语言模型(LLM 能够理解视频中的视觉和听觉内容。视频-来自冻结的预训练视频和音频编码器和冻结的LLM的美洲驼引导跨模式训练。不像以前的工作，补充线性最小二乘法只处理视觉或听觉信号...

人工智能 2023-12-21 人工智能
1136阅读

第一页 1 没有了