视频检索 - AIGC资讯

蚂蚁多模态团队在视频多模态方向的技术探索

一、概述视频多模态检索在蚂蚁内部有着广泛的应用。视频多模态检索具体包括两个方向，一个是视频-文本的语义检索，另外一个是视频-视频的同源检索。视频-文本的语义检索方向旨在通过文本检索与其语义相近的视频，其检索文本未必在检索到的视频描述中直接出现，但检...

大数据 2024-05-21 人工智能

897阅读

VideoPrism是一个通用的视频编码模型，可在各种视频理解任务上取得领先的性能，包括分类、定位、检索、字幕生成和问答等。其创新点在于预训练的数据集非常大且多样，包含 3600 万高质量的视频-文本对，以及5. 82 亿带有嘈杂文本的视频剪辑。预训练采用...

AIGC 2024-02-26 人工智能

866阅读

这几天，AI 视频领域异常地热闹，其中 OpenAI 推出的视频生成大模型 Sora 更是火出了圈。而在视频剪辑领域，AI 尤其是大模型赋能的 Agent 也开始大显身手。随着自然语言被用来处理与视频剪辑相关的任务，用户可以直接传达自己的意图，从而不需...

生成式AI 2024-02-20 人工智能

940阅读

Agents LAVE是Meta发布的全新AI自动剪辑视频工具，采用AI技术实现简单短视频和广告视频的自动生成，无需人工干预。工具界面包括输入提示、素材库和视频时间轴，而Agents设计则指导编辑行动计划的执行。论文地址:https://arxiv.o...

生成式AI 2024-02-19 人工智能

1187阅读

We're sorry but ad-materials-admin doesn't work properly without JavaScript enabled. Please enable it to continue. ...

大数据 2024-01-06 人工智能

1050阅读

只需一句话描述，就能在一大段视频中定位到对应片段！比如描述“一个人一边下楼梯一边喝水”，通过视频画面和脚步声的匹配，新方法一下子就能揪出对应起止时间戳：就连“大笑”这种语义难理解型的，也能准确定位：方法名为自适应双分支促进网络（ADPN），由清...

AIGC 2024-01-06 人工智能

880阅读

AI 生成内容已经成为当前人工智能领域的最热门话题之一，也代表着该领域的前沿技术。近年来，随着 Stable Diffusion、DALL-E3、ControlNet 等新技术的发布，AI 图像生成和编辑领域实现了令人惊艳的视觉效果，并且在学术界和工业界...

人工智能 2023-10-24 人工智能

997阅读