视频描述 - AIGC资讯

每日AIGC最新进展(56)：当下最强开源图片/视频理解模型CogVLM2发布

Diffusion Models专栏文章汇总：入门与实战随着大型语言模型和多模态对齐技术的发展，视频理解模型在一般开放领域也取得了重大进展。然而，目前大多数视频理解模型使用帧平均和视频令牌压缩方法，导致时间信息的丢失和无法准确回答与时间相关的问题。...

大数据 2024-09-26 人工智能

926阅读

2024最新的AIGC的应用领域有哪些？

2023大型语言模型-aigc-LLM-engineering实例代码合集.zip 2023大模型与AIGC峰会（公开）PPT汇总（25份）.zip 内容创作： AI写作：AIGC技术可以用于生成文章、新闻、博客、广告文案、创意写作等，为内容创作...

人工智能 2024-07-14 人工智能

887阅读

AIGC专栏11——EasyAnimateV2结构详解与Lora训练最大支持768x768 144帧视频生成

AIGC专栏11——EasyAnimateV2结构详解与Lora训练最大支持768x768 144帧视频生成学习前言源码下载地址 EasyAnimate V2简介技术储备 Diffusion Transformer (DiT Mo...

AIGC 2024-06-27 人工智能

1126阅读

快手版Sora「可灵」开放测试：生成超120s视频，更懂物理，复杂运动也能精准建模

什么？疯狂动物城被国产AI搬进现实了？与视频一同曝光的，是一款名为「可灵」全新国产视频生成大模型。它采用了Sora相似的技术路线，结合多项自研技术创新，生成的视频不仅运动幅度大且合理，还能模拟物理世界特性，具备强大的概念组合能力和想象力。数据上看...

大数据 2024-06-06 人工智能

774阅读

让智能体像孩子一样观察别人学习动作，跨视角技能学习数据集EgoExoLearn来了

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ 在探索人工智能边界时，我们时常惊叹于人类孩童的学习能力 —— 可以轻易地将他人的动作映射到自己的视角，进而模仿并创新。当我们追求更高阶...

大数据 2024-04-07 人工智能

688阅读

通过织梦采集实现视频内容的轻松整合与教程指南

在网络时代，内容创作者们深知内容的重要性和它所带来的流量价值。尤其是视频内容，它已经成为许多网站吸引访客、提高用户体验的核心元素之一。但对于大多数非专业的站长来说，手动上传和管理大量视频内容不仅费时费力，而且技术要求也相对较高。这时候，“织梦采集”就成为了...

人工智能 2024-03-07 大数据

707阅读

微软37页论文逆向工程Sora，得到了哪些结论？

追赶 Sora，成为了很多科技公司当下阶段的新目标。研究者们好奇的是：Sora 是如何被 OpenAI 发掘出来的？未来又有哪些演进和应用方向？ Sora 的技术报告披露了一些技术细节，但远远不足以窥其全貌。在最近的一篇文章中，微软研究院和理海大学的研...

AIGC 2024-03-02 人工智能

665阅读

AIGC内容分享(四十四)：[AIGC服务] 视频生成 | “群魔乱舞“

目录骨架驱动的人形动画生成原理简介应用前景骨架驱动的人形动画生成输入人脸图像+视频动画或者文本描述输出视频...

人工智能 2024-02-11 人工智能

789阅读

ai写作在线网页版如何获取？ai写论文免费

hello，大家好，这里是摸鱼能手芳大头！ AI写作生成可以快速生成大量文本，节省了手动写作的时间和精力，根据用户需求生成符合规范和标准的内容，提高了内容的质量和准确性。根据用户需求和偏好进行个性化写作，提高了写作的针对性和个性化。今天我就分享这5个...

AIGC 2024-02-07 人工智能

834阅读

2024最新发布：GitHub Copilot快速激活指南！无需账号/认证，30秒完成激活 | 1分钟简易教程，立刻启用，成功率达100%！

2024最新发布：GitHub Copilot快速激活指南！无需账号/认证，30秒完成激活 | 1分钟简易教程，立刻启用，成功率达100%！快速开始：视频教程安装Copilot：首先，在你的集成开发环境（IDE）中安装Copilot和C...

人工智能 2024-01-16 人工智能

1498阅读

AI解读视频张口就来？这种「幻觉」难题Vista-LLaMA给解决了

近年来，大型语言模型如 GPT、GLM 和 LLaMA 等在自然语言处理领域取得了显著进展，基于深度学习技术能够理解和生成复杂的文本内容。然而，将这些能力扩展到视频内容理解领域则是一个全新的挑战 —— 视频不仅包含丰富多变的视觉信息，还涉及时间序列的动态...

AIGC 2024-01-08 人工智能

829阅读

清华大学研发 LLM4VG 基准：用于评估 LLM 视频时序定位性能

12 月 29 日消息，大语言模型（LLM）的触角已经从单纯的自然语言处理，扩展到文本、音频、视频等多模态领域，而其中一项关键就是视频时序定位（Video Grounding，VG）。 VG 任务的目的基于给定查询（一句描述），然后在目标视频段中定位...

大数据 2024-01-02 人工智能

668阅读

【Video-LLaMA】增强LLM对视频内容的理解

Paper:《Video-LLaMA : An Instruction-tuned Audio-Visual Language Model for Video Understanding》 Authors: Hang Zhang, Xin Li, Lid...

生成式AI 2023-12-13 人工智能

1055阅读

提前对齐，视频问答新SOTA！北大全新Video-LLaVA视觉语言大模型，秒懂视频笑点

【新智元导读】最近，来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA，使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能，并在图片、视频的13个基准上达到先进的性能。这个结果表明，统一L...

AIGC 2023-11-23 人工智能

775阅读

北大视频大模型新SOTA，搞笑抖音视频AI秒懂笑点｜开源

AI能理解搞笑视频笑点在哪里了。北大等团队开源视觉语言大模型Video-LLaVA，将图像和视频表示对齐到统一的视觉特征空间，在13个图片和视频基准上达到先进的性能。值得注意的是，Video-LLaVA在训练过程中没有使用成对的视频和图片数据，但...

人工智能 2023-11-21 人工智能

729阅读

北大视频大模型新SOTA，搞笑抖音视频AI秒懂笑点

AI能理解搞笑视频笑点在哪里了。 AI回答：这个视频之所以搞笑，在于一个小宝宝正坐在床上努力读书，但他显然还不会真正读书。他只是不停地指着书页上的各处，而摄影者则在背后笑他。小宝宝的这种尝试很有趣，因为他在尝试阅读一本对他而言过大的书，也看不懂里面的文...

大数据 2023-11-20 人工智能

642阅读

谷歌发布 Mirasol：30 亿参数，将多模态理解扩展到长视频

11 月 16 日消息，谷歌公司近日发布新闻稿，介绍了小型人工智能模型 Mirasol，可以回答有关视频的问题并创造新的记录。 AI 模型目前很难处理不同的数据流，如果要让 AI 理解视频，需要整合视频、音频和文本等不同模态的信息，这大大增加了难度。...

生成式AI 2023-11-16 人工智能

670阅读

微软用GPT-4V解读视频，看懂电影还能讲给盲人听，1小时不是问题

世界各地的人们每天都会创造大量视频，包括用户直播的内容、短视频、电影、体育比赛、广告等等。视频是一种多功能媒介，可以通过文本、视觉和音频等多种模态传递信息和内容。如果可以开发出能学习多模态数据的方法，就能帮助人们设计出具备强大能力的认知机器 —— 它不...

生成式AI 2023-11-15 人工智能

912阅读

语言作“纽带”，拳打脚踢各模态，超越Imagebind

北大联合腾讯打造了一个多模态15边形战士！以语言为中心，“拳打脚踢”视频、音频、深度、红外理解等各模态。具体来说，研究人员提出了一个叫做LanguageBind的多模态预训练框架。用语言作为与其它模态之间的纽带，冻结语言编码器，然后用对比学习方法...

生成式AI 2023-11-13 人工智能

718阅读