-
让AI更懂物理世界,人大北邮上海AI Lab等提出多模态分割新方法
让AI像人类一样借助多模态线索定位感兴趣的物体,有新招了! 来自人大高瓴GeWu-Lab、北邮、上海AI Lab等机构的研究人员提出Ref-AVS(Refer and Segment Objects in Audio-Visual Scenes,视听场景下...
-
AIGC-SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models
论文: https://arxiv.org/pdf/2311.16933 代码:https://guoyww.github.io/projects/SparseCtrl MOTIVATION relying solely on text p...
-
超逼真AI生成电影来了!《泰坦尼克号》AI重生!浙大&阿里发布MovieDreamer,纯AI生成电影引爆热议!
视频生成领域的最新进展主要利用了短时内容的扩散模型。然而,这些方法往往无法对复杂的叙事进行建模,也无法在较长时间内保持角色的一致性,而这对于电影等长篇视频制作至关重要。 对此,浙大&阿里发布了一种新颖的分层框架MovieDreamer,它将自回归...
-
当一家头部MCN决定做AIGC产品
一家擅长制造爆款的内容公司,最近推出了一款定位为“故事生成助手”的AI工具。 7月初,仅靠网友自来水传播,该产品在一周内新增用户过万。 在产品官网上,研发团队如此介绍道:“用AI快速生成连续、一致的角色与故事……帮助任何人零门槛创作故事影集。” 这款AI...
-
教大家如何使用Stable Diffusion生成视频的插件Temporal Kit
今天我将向大家推荐一款使用Stable Diffusion生成视频的插件Temporal Kit,它在将视频转换成不同风格的同时在稳定画面方面也有较大提升。 这是一段视频对比,左侧是原视频,右侧是运用Temporal Kit插件制作的视频。重绘幅度0...
-
每日AIGC最新进展(53):中科大提出物理模拟人物化身PICA、厦门大学提出音频驱动的头部视频编辑StyleGAN、上交提出蒙特卡洛逆向渲染3D对象方法
Diffusion Models专栏文章汇总:入门与实战 PICA: Physics-Integrated Clothed Avatar 本文介绍了PICA,一种新型的高保真可动人物化身表示方法,能够实现物理精确的动态模拟,尤其适用于宽松衣物。...
-
小说推文ai绘画聚星文社一键生成绘唐3免费工具
小说推文ai绘画聚星文社一键生成绘唐3免费工具Docshttps://qvfbz6lhqnd.feishu.cn/wiki/D3YLwmIzmivZ7BkDij6coVcbn7W 支持单镜精绘,可以根据故事情节进行单镜头绘图调整,并支持对SD各类模型的自...
-
AI界的万花筒写轮眼(Stable Diffusion进阶篇:Deforum)
大家好我是极客菌 (本篇是最基础的Deforum操作实践) 给不熟悉的小伙伴说一下,Deforum是一个基于Stable Diffusion开发的短视频生成项目,可以根据某一特定画面进行演化变化。 这个Deforum在现如今的开发者都致力于解决AI视频...
-
Stable Diffusion|儿童绘本全流程制作分享
上次分享了一个将小说转化为视频的全过程的教程。今天分享一个如何用Stable Diffusion制作儿童绘本,儿童绘本制作起来会稍微简单一些。 一个小想法 现在大部分的孩子或学生都会写作文,如果把孩子写的作文转化为一个生动的小视频,是不是能够提...
-
Moki功能介绍及免费使用指南 美图AI短片创作工具体验地址入口
Moki简介 Moki 是美图公司推出的AI短片创作工具,专注于辅助视频创作者打造动画短片、网文短剧、故事绘本和音乐视频(MV)。它为视频创作者提供了智能剪辑、自动配乐、音效添加和字幕生成等功能,大幅简化视频制作流程,提高创作效率。 Moki功能亮点...
-
央视的AI动画《AI我中华》宣传视频,原来用AI工具Stable Diffusion制作,竟然这么简单?
大家好,我是向阳。 前段时间,央视的《爱我中华》AI宣传短片火爆全网,有一个穿越转场效果非常惊艳!先来回顾回顾: 今天就先来详细讲解,如何利用Stable Diffusion制作这样的穿越转场视频。 如你还没有安装Stable Diffusion,...
-
AI日报:效果炸裂!Krea Video向所有人开放;阿里花8亿入股Kimi;Arc Search可以打电话了;腾讯智影声音大模型升级
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 1、Krea AI视频生成工具向所...
-
Krea AI视频生成工具向所有人开放 Krea Video正式进入公测
视频来自Krea AI官方 Krea AI 最近宣布其视频生成工具Krea Video已经向所有人开放,正式进入公测阶段。这个新工具结合了关键帧和文本提示,让用户能够更灵活地创建视频。 使用Krea Video,用户可以在时间线中添加关键帧和文本提示,这两...
-
蚂蚁多模态团队在视频多模态方向的技术探索
一、概述 视频多模态检索在蚂蚁内部有着广泛的应用。视频多模态检索具体包括两个方向,一个是视频-文本的语义检索,另外一个是视频-视频的同源检索。 视频-文本的语义检索方向旨在通过文本检索与其语义相近的视频,其检索文本未必在检索到的视频描述中直接出现,但检...
-
超越ORB-SLAM3!SL-SLAM:低光、严重抖动和弱纹理场景全搞定
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面 今天我们探讨下深度学习技术如何改善在复杂环境中基于视觉的SLAM(同时定位与地图构建)性能。通过将深度特征提取和深度匹配方法相结合,这里介绍了一种多功能的混合视觉SLAM系统,旨在提高在诸如低...
-
Gaussian-LIC:首个多传感器融合3DGS-SLAM系统(浙大&TUM)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 多传感器与3DGS的结合 NeRF-based SLAM的隐式神经表示法需要基于3D空间中的采样进行计算密集型的体积渲染,从而削弱了SLAM应用所必需的实时能力。3DGS以其快速的渲染速度和优越的视觉...
-
AI视频风格转换动漫风:Stable Diffusion+TemporalKit
话不多说,直接开干。 基本方法 首先通过 Temporal-Kit 这个插件提取视频中的关键帧图片,然后使用 Stable Diffusion WebUI 重绘关键帧图片,然后再使用 Temporal-Kit 处理转换后的关键帧图片,它会自动补充关键...
-
【Stable Diffusion】高效率视频转AI动画!EbSynth插件全流程操作
传统的转绘流程是将视频里的所有画面进行逐帧转绘,再拼接起来,这样做的结果就是绘制速度很慢,而且画面的闪烁会很严重,因为AI绘制的画面会非常的不稳定。而在EbSynth当中,我们的流程就有了一些的改变,首先是使用插件将视频拆帧和抠出蒙版,然后提取出图片中动作...
-
用AI短视频「反哺」长视频理解,腾讯MovieLLM框架瞄准电影级连续帧生成
在视频理解这一领域,尽管多模态模型在短视频分析上取得了突破性进展,展现出了较强的理解能力,但当它们面对电影级别的长视频时,却显得力不从心。因而,长视频的分析与理解,特别是对于长达数小时电影内容的理解,成为了当前的一个巨大挑战。 究其原因,导致模型理解长视...
-
解锁SLAM新纪元!基于NeRF和3D GS方法综述
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 在过去的二十年里,SLAM领域的研究经历了重大的发展,突出了其在实现未知环境的自主探索方面的关键作用。这种演变从手工制作的方法到深度学习时代,再到最近专注于神经辐射场...
-
直接干上车!DriveVLM:首个Orin部署的快慢双系统智驾大模型
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 在目前自动驾驶领域,传统的感知(perception)-预测(prediction)-规划(planning)的常规端到端自动驾驶在处理常规场景时表现尚可,但在面对复...
-
清华叉院、理想提出DriveVLM,视觉大语言模型提升自动驾驶能力
与生成式 AI 相比,自动驾驶也是近期 AI 最活跃的研究和开发领域之一。要想构建完全的自动驾驶系统,人们面临的主要挑战是 AI 的场景理解,这会涉及到复杂、不可预测的场景,例如恶劣天气、复杂的道路布局和不可预见的人类行为。 现有的自动驾驶系统通常包括...
-
【AIGC-文本/图片生成视频系列-10】SparseCtrl:在文本生成视频的扩散模型中添加稀疏控制
目录 一. 项目概述 二. 方法详解 三. 应用结果 四.个人思考 由于扩散模型生成空间的不确定性,仅仅通过文本生成视频时,会导致模糊的视频帧生成。 今天解析的SparseCtrl,是一种有效解决上述问题的方案,通过带有附加编码器的时间稀疏条...
-
AI视频模拟毒蘑菇致幻视觉 B站播放超150万获赞超20万
最近,B站UP主“不自由摄影师winga”通过巧妙运用多种AI工具,创作了一支令人瞩目的AI视频,模拟了食用毒菇后可能产生的致幻视觉效果。 据数据显示,这段视频在B站上的播放量超过150万,获得超过20万的赞,一度登上B站全站排行榜第13名。 UP主选择...
-
首个环视世界模型DrivingDiffusion: BEV数据和仿真新思路!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 笔者的一些个人思考 在自动驾驶领域,随着BEV-based子任务/端到端方案的发展,高质量的多视图训练数据和相应的仿真场景构建愈发重要。针对当下任务的痛点,“高质量”可以解耦成三个方面: 不同维度...
-
AI建筑设计卷疯了!Stable Diffusion成了最终赢家?
AI绘画真的火了! 最近观察员打开各大平台 刷到的基本上都是 用AI生成的画像、插画,甚至建筑设计 区别于早几年的人工智能 如今的AI只需要给它一段文字描述 就能生成精美图像 这也极大地改变了我们的创作方式 目前最主流的AI绘画平台主要有...
-
谷歌发布AI视频生成器Lumiere,在生成可爱动物视频方面表现出色
1月26日消息,据外媒报道,谷歌公布了一款名为Lumiere的人工智能视频生成器,并在相关的预印本论文中称其为“逼真视频生成的时空扩散模型”。Lumiere在制作可爱动物在荒谬场景中的视频方面做得很好,比如穿旱冰鞋、开车或弹钢琴。 根据谷歌的说法,Lu...
-
谁能想到,一款3D建模AI工具成了Ins网红的视频创作利器
近期话题热度拉满的《幻兽帕鲁》AI抄袭瓜,想必各位一线冲浪玩家已经略有耳闻了。 背后最大的争议之一在于,无经验的小团队快速开发出3D游戏大作,遥遥领先以往同类项目的生产力。 多方争议之下,《幻兽帕鲁》AI抄袭瓜尚无定论。 但3D内容制作确实正变得前所未有的...
-
Ai绘画小说推文全自动制作软件来袭,从此做Ai漫画超简单
大家好,我是铭则,千呼万唤始出来,小说推文Ai绘画的玩法,升级版本终于来了,可以批量生成关键词,批量出图 有了这套玩法和软件,大家制作Ai绘画小说推文的视频,效率提升起码一倍,快的话,一个5分钟的视频,30分钟就能制作完毕 Ai绘画小说推文是目前最新的...
-
【AIGC-文本/图片生成视频系列-9】MagicVideo-V2: 多阶段高美感视频生成
目录 一. 项目概述与贡献 二. 方法详解编辑 三. 文本生成视频相关结果 四. 与其他方法对比结果 五. 个人感悟 最近得益于扩散模型的快速发展,文本到视频(T2V)模型的激增。 今天要介绍的是字节的MagicVideo-V2,一个新颖...
-
学习之旅:揭秘AI绘画与视频生成的奥妙(2)
前言 在这篇文章中,我们将深入探讨如何使用Ebsynth Utility插件为视频带来全新的视觉效果。通过重绘视频,我们可以实现对视频风格的调整,为其增添独特的艺术氛围。我们将分享实际操作步骤以及过程中可能遇到的问题,帮助大家更好地掌握这...
-
一句话让小姐姐为我换了N套衣服,谷歌卷出视频生成新高度,网友:竞赛加码
谷歌一出手,又把AI视频生成卷上了新高度。 一句话生成视频,现在在名为Lumiere的AI操刀下,可以是酱婶的: △“阳光明媚,帆船在湖中航行” 如此一致性和质量,再次点燃了网友们对AI视频生成的热情:谷歌加入战局,又有好戏可看了。 不止是文生视频,...
-
【AI绘画】Stablediffusion的AI动画教学之Ebsynth Utillity
小伙伴们大家好,想必很多小伙伴都刷到过各种各样的AI动画片段吧,包括自主设置的AI动画以及将已有的视频转化为AI形式的,相信细心的小伙伴们会发现,其实这些操作,其基础原理,不都是来自于Stablediffusion的“图生图”么?本期内容,我...
-
拳打Gen-2脚踢Pika,谷歌爆肝7个月祭出AI视频大模型,首提时空架构,时长史诗级延长
爆肝7个月,谷歌祭出了AI视频大模型Lumiere,直接改变了游戏规则!全新架构让视频时长和一致性全面飞升,时长直接碾压Gen-2和Pika。 AI视频赛道上,谷歌又再次放出王炸级更新! 这个名为Google Lumiere的模型,是个大规模视频扩散模...
-
拳打Gen-2脚踢Pika,谷歌爆肝7个月祭出AI视频大模型!首提时空架构,时长史诗级延长
AI视频赛道上,谷歌又再次放出王炸级更新! 这个名为Google Lumiere的模型,是个大规模视频扩散模型,彻底改变了AI视频的游戏规则。 跟其他模型不同,Lumiere凭借最先进的时空U-Net架构,在一次一致的通道中生成整个视频。 具体来说,现有...
-
Lumiere文生视频模型怎么使用 AI生成视频Lumiere官网地址入口
Lumiere是一个文本到视频扩散模型,旨在合成展现真实、多样和连贯运动的视频,解决视频合成中的关键挑战。我们引入了一种空时U-Net架构,可以一次性生成整个视频的时间持续,通过模型的单次传递。这与现有的视频模型形成对比,后者合成远距离的关键帧,然后进行时...
-
ChatGPT之后,下个AIGC杀手级应用已近在眼前
鱼羊 发自 凹非寺量子位 | 公众号 QbitAI 大模型模式,正在新一波AIGC的浪潮里被再度验证。 从AI画画的出圈,到现如今ChatGPT的火爆,面向大众的爆款产品接口背后,无不是大模型技术的突破创新。 而当这种“大力出奇迹”的技术...
-
AIGC内容分享(二十):「AI视频生成」技术核心基础知识和模型应用
目录 何为AI视频? 一、技术发展概况 二、代表模型及应用 三、仍存在许多技术难点 何为AI视频? 「AI视频」通常指的是由人工智能(AI)技术生成或处理的视频。这可能包括使用深度学习、计算机视觉和其他相关技术来改善视频的质...
-
AIGC中的视觉生成文献整理
文章目录 文件夹文献总览 图像生成技术 视频生成技术 Video Generation with Text Condition Video Generation with other Conditions Video Editing 生成模...
-
MagicVideo-V2好不好用 AI视频生成软件推荐
MagicVideo-V2是一种文本到视频生成软件。它能够根据用户输入的文本描述,生成高质量、逼真的视频。MagicVideo-V2的体验下载入口在哪呢,这里我们来看下MagicVideo-V2的官方体验入口。 >>>点击前往 Magi...
-
AIGC|一文梳理「AI视频生成」技术核心基础知识和模型应用
大家好,我是猫先生,AI技术爱好者与深耕者!! 2022年是AIGC(生成式AI)元年!从这一年开始,可谓是百家争鸣,各种技术层出不穷,再次迸发出AI的活力。从DALL·E 2、Stable Diffusion、Midjourney等文生图应用点燃了大众...
-
【腾讯云HAI】都2023年了,HAI没玩过AIGC?
:::info 腾讯云高性能应用服务(Hyper Application lnventor,HA ,是一款面向 Al、科学计算的 GPU 应用服务产品,为开发者量身打造的澎湃算力平台。无需复杂配置,便可享受即开即用的GPU云服务体验。在 HA] 中,根据应...
-
AI平台:知作zizo - 次世代创作方式,全新全能,随时随地
知作zizo - 次世代创作方式,全新全能,随时随地 Beta下载APP立即使用次世代创作方式人工智能强力驱动,灵感创意、云盘、团队协作、批注审阅、交付展示,流程全面数字化全新全能,随时随地立即使用灵感库...
-
端到端的自动驾驶会取代Apollo、autoware这类框架吗?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 Rethinking the Open-Loop Evaluation of End-to-End Autonomous Driving in nuScenes 作者单位:百度 作者:共一 Jian...
-
文生视频下一站,Meta已经开始视频生视频了
文本指导的视频到视频(V2V)合成在各个领域具有广泛的应用,例如短视频创作以及更广泛的电影行业。扩散模型已经改变了图像到图像(I2I)的合成方式,但在视频到视频(V2V)合成方面面临维持视频帧间时间一致性的挑战。在视频上应用 I2I 模型通常会在帧之间...
-
AI论文范文:AIGC中的图像转视频技术研究
声明: ⚠️本文由智元兔AI写作大师生成,仅供学习参考智元兔-官网|一站式AI服务平台|AI论文写作|免费论文扩写、翻译、降重神器 1 引言 1.1 AIGC技术背景介绍 1.2 图像转视频技术的重要性与应用场景 1.3 研究动机与目标 2...
-
还不知道?近20+自动驾驶数据集、榜单和Benchmark汇总
本文经自动驾驶之心公众号授权转载,转载请联系出处。 1.Nuscenes 数据集链接:nuScenes nuscenes数据集下有多个任务,涉及Detection(2D/3D)、Tracking、prediction、激光雷达分割、全景任务、规划控制等...
-
Gemini vs GPT-4V到底哪家强?视觉-语言模型的全面比较和结合使用
概括 大家好,我是戚张扬,目前就读于香港大学,今天和大家分享一篇我们关于视觉语言模型最新的研究,这篇论文提供了对谷歌的Gemini和OpenAI的GPT-4V(ision 两个SOTA模型的深入定性比较研究。我们的研究涉及到对这两个模型在视觉语言能力、与...
-
StableVideo:使用Stable Diffusion生成连续无闪烁的视频
使用Stable Diffusion生成视频一直是人们的研究目标,但是我们遇到的最大问题是视频帧和帧之间的闪烁,但是最新的论文则着力解决这个问题。 本文总结了Chai等人的论文《StableVideo: Text-driven consistency -...
-
W.A.L.T官网体验入口 AI视频图像生成软件app免费下载地址
《W.A.L.T》是一个基于transformer的实景视频生成方法,它通过联合压缩图像和视频到一个统一的潜在空间,实现跨模态的训练和生成。使用了窗注意力机制来提高内存和训练效率,该方法在多个视频和图像生成基准测试上取得了最先进的性能。《W.A.L.T》在...