-
AI视频新战场:字节对决快手、反击Sora
字节跳动以性价比策略切入市场,掀起价格竞争,但高性能模型仍保持付费门槛。B端市场对豆包视频大模型的接纳度有待观察,其商业变现与用户场景适配性成为主要考验。 一场由Sora引发的AI视频生成竞赛,如今迎来新的竞争者! 9月24日,2024火山引擎AI创新巡展...
-
AIGC专栏15——CogVideoX-Fun详解 支持图&文生视频 拓展CogVideoX到256~1024任意分辨率生成
AIGC专栏15——CogVideoX-Fun详解 支持图&文生视频 拓展CogVideoX到256~1024任意分辨率生成 学习前言 项目特点 生成效果 相关地址汇总 源码下载地址 CogVideoX-Fun详解 技术储备 Dif...
-
【AIGC】MimicMotion:姿态引导的高质量人体运动视频生成技术
资源 论文:https://arxiv.org/pdf/2406.19680 github:https://github.com/Tencent/MimicMotion comfyui:https://github.com/kijai/ComfyUI...
-
视频生成AI-可灵的具体使用方法(含提示词撰写方式)
可灵AI简介: 这个AI工具可以进行文生视频以及图生视频,支持生成长达2分钟、1080p分辨率的高清视频,帧率为30fps,并且支持多种宽高比。同时具备一键续写功能,可以延长视频运动延续时间,最长可生成3分钟的视频。接下来我们会详细的说下它的使用...
-
CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:实时4K分辨率4D视图合成
文章链接:https://arxiv.org/pdf/2310.11448 git链接: https://zju3dv.github.io/4k4d/ 本文旨在实现动态3D场景在4K分辨率下的高保真和实时视图合成。最近,一些动态视图合成方法在渲染质量方面...
-
阿里重磅开源Qwen2-VL:能理解超20分钟视频,媲美GPT-4o!
阿里巴巴开源了最新视觉多模态模型Qwen2-VL,根据测试数据显示,其72B模型在大部分指标超过了OpenAI的GPT-4o,Anthropic的Claude3.5-Sonnet等著名闭源模型,成为目前最强多模态模型之一。 Qwen2-VL支持中文、英文、...
-
MimicMotion一张图片就可以生成小姐姐跳舞的视频,Windows一键运行包
MimicMotion一张图片就可以生成小姐姐跳舞的视频,Windows一键运行包 最近,腾讯和上交大合作推出了一款名为MimicMotion的AI工具,简直是视频生成领域的一次重大突破。你只需提供一张姿态序列图片,MimicMotion就能生成细节丰富...
-
VAD-LLaMA:基于大语言模型的视频异常检测和解释(Video Anomaly Detection and Explanation via Large Language Models)
文章目录 问题 方法 整体架构 VE and Feature Extraction Long-Term Context (LTC Module Feature Adaptor LLaMA 训练 流程图 第一阶段:训练VADor 第二阶段...
-
MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions
Paper name MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions Paper Reading Note Paper URL: ht...
-
字节跳动与南开联合开源 StoryDiffusion:一键生成漫画和视频故事的神器!完全免费!
大家好,我是程序员X小鹿,前互联网大厂程序员,自由职业2年+,也一名 AIGC 爱好者,持续分享更多前沿的「AI 工具」和「AI副业玩法」,欢迎一起交流~ 漫画,是多少人童年的回忆啊! 记得小学时的同桌,经常支起课本,后面夹着一本漫画书在看。(哈哈...
-
超逼真AI生成电影来了!《泰坦尼克号》AI重生!浙大&阿里发布MovieDreamer,纯AI生成电影引爆热议!
视频生成领域的最新进展主要利用了短时内容的扩散模型。然而,这些方法往往无法对复杂的叙事进行建模,也无法在较长时间内保持角色的一致性,而这对于电影等长篇视频制作至关重要。 对此,浙大&阿里发布了一种新颖的分层框架MovieDreamer,它将自回归...
-
ARR千万美金,找到PMF的toC AI产品又多了一个?
前几天刷小红书,刷到一个帖子讨论有哪些 toC 的 AI 产品跑通了 PMF。验证市场需求,绊倒了不少创业者,而找到 PMF 的产品们,被其他人拿来反复研究。 小红书上讨论已经验证市场需求的面向 C 端用户的AIGC 产品 | 图片来源:小红书用户晓音的...
-
【Datawhale AI夏令营第四期】魔搭-AIGC方向 Task01笔记
报名参加了和鲸的AI夏令营,出于任务要求,也出于我一贯的学习习惯,写篇笔记记录一下自己学习过程中遇到的困难,和积累的资源、经验等。 课程链接: https://space.bilibili.com/1069874770/channel/collect...
-
离线免费最新超长AI视频模型!一句话即可生成120秒视频,免费开源!只需要一张照片和音频,即可生成会说话唱歌的AI视频!能自行完成整个软件项目的AI工具,以及 Llama 3 在线体验和本地安装部署
离线免费最新超长AI视频模型!一句话即可生成120秒视频,免费开源!只需要一张照片和音频,即可生成会说话唱歌的AI视频!能自行完成整个软件项目的AI工具,以及 Llama 3 在线体验和本地安装部署。 StreamingT2V(Streaming Tex...
-
AI进内娱,群众不答应?(内含福利)
相较于AI翻唱、AI换脸、AI智能体等在二创领域的风生水起,随着近期AI明确宣告进入专业创作领域,却引起了一连串意料之中和意料之外的群众反弹。如果AI内部也开组织扩大会议,应该也要说一句:改革进入深水区。 在奥运到来之前,AI创作是整个7月的舆论大热点、群...
-
连续3天蝉联Product Hunt榜首,AI一键“魔改”短视频工具Vozo什么来路?
最近,一款名为“Vozo Rewrite & Redub”(下文简称Vozo)的AI视频工具火了,上线即登Product Hunt榜首,且已蝉联3天。 这其中甚至还有Product Hunt CEO的一票。 图源X@LightField(Voz...
-
对标Sora!快手自研视频生成大模型可灵AI全面开放内测
快科技7月25日消息,日前,快手视频生成大模型可灵AI宣布基础模型升级,并全面开放内测,同时正式上线付费会员体系。 用户每日登录都可免费获得66灵感值,可用于兑换可灵AI平台内指定的功能使用权或增值服务,可生成约6个免费视频。 据了解,可灵AI基础模型升...
-
视频大语言模型调研论文《Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding》解读
本文是关于论文《Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding》的简要介绍。Video-LLaMA是阿里达摩院的一个多模态大语言模型...
-
AI日报:OpenAI发布GPT-4o mini;豆包浏览器插件上线播客和视频总结功能;DeepL推翻译神器
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 1、OpenAI发布GPT-4o...
-
Autoclipr有哪些功能免费吗 AI剪辑怎么使用方法详细教程指南
Autoclipr 是什么? Autoclipr是一款使用AI技术从长视频中提取垂直剪辑的工具。它能够自动选择视频中的热门片段,并生成吸引人的垂直剪辑,帮助用户节省时间并扩大观众群体。目前Autoclipr处于Beta测试阶段,提供免费试用。 Aut...
-
AIGC专栏12——EasyAnimateV3发布详解 支持图&文生视频 最大支持960x960x144帧视频生成
AIGC专栏12——EasyAnimateV3发布详解 支持图&文生视频 最大支持960x960x144帧视频生成 学习前言 项目特点 生成效果 相关地址汇总 项目主页 Huggingface体验地址 Modelscope体验地址 源...
-
每日AIGC最新进展(20):基于树的长视频理解VideoTree、IBM研究院提出AI生成图片生成检测、蚂蚁集团提出AI生成视频检测工具、CMU提出大型视频-语言模型
Diffusion Models专栏文章汇总:入门与实战 VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos 本文介绍了一种名...
-
百度网盘自研短剧AI看:1分钟轻松看50集
快科技6月26日消息,原以为短剧一分钟一集已经足够快了,没想到百度网盘还能加速50倍。 百度网盘宣布自研了最近大火的短剧AI看”,支持短剧分集智能总结,1分钟轻松看50集,妈妈再也不用担心我熬夜追剧了! 不仅如此,百度网盘还支持智能添加字幕,中英日韩四国语...
-
AIGC专栏11——EasyAnimateV2结构详解与Lora训练 最大支持768x768 144帧视频生成
AIGC专栏11——EasyAnimateV2结构详解与Lora训练 最大支持768x768 144帧视频生成 学习前言 源码下载地址 EasyAnimate V2简介 技术储备 Diffusion Transformer (DiT Mo...
-
AI写作:kimi智能AI助手如何下载以及怎么使用?
kimi的最近火爆,让更多普通人感受到了AI的处理功能的强大,就算你没有写作需求,也是可以利用他的差距进而提升自己的工作效率。 比如最近很火的KIMICopilot 可以帮助你总结网页以及各类视频,并且还能根据提示词进行定制。 一、那么怎么使用kimi...
-
Gemini视频推理遥遥领先GPT-4o,Jeff Dean连续转发三次,首个视频多模态基准Video-MME来了
OpenAI和谷歌接连两场发布会,把AI视频推理卷到新高度。 但业界还缺少可以全面评估大模型视频推理能力的基准。 终于,多模态大模型视频分析综合评估基准Video-MME,全面评估多模态大模型的综合视频理解能力,填补了这一领域的空白。 Gemini1.5P...
-
AI日报:Luma官方亲自下场夸自家“孩子”;日本艺术家用Luma复活妻子看哭网友;苹果AI可能要放大家“鸽子”;北大快手联合推视频生成框架VideoTetris
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 1、Luma 官方发视频介绍Dre...
-
通用世界模型问世:不学习就能生成新领域视频,可实时控制
随着 OpenAI 今年 2 月发布 Sora,世界模型(World Model)再次成为了 AI 领域的热门。 世界模型,即通过预测未来的范式对数字世界和物理世界进行理解,一直以来被认为是通往通用人工智能(AGI)的关键路径之一,与当前大模型推崇的智能...
-
AI日报:讯飞星火Lite API永久免费;李开复称大模型疯狂降价是双输;AI特效末日滤镜抖音爆火;AI音乐Suno 融资1.25亿美元
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 1、科大讯飞:讯飞星火Lite A...
-
谷歌Gemini 1.5技术报告:轻松证明奥数题,Flash版比GPT-4 Turbo快5倍
今年 2 月,谷歌上线了多模态大模型 Gemini1.5,通过工程和基础设施优化、MoE 架构等策略大幅提升了性能和速度。拥有更长的上下文,更强推理能力,可以更好地处理跨模态内容。 本周五,Google DeepMind 正式发布了 Gemini 1.5...
-
谷歌硬刚GPT-4o!60秒视频生成模型虽迟但到,上下文窗口达200万
OpenAI出手再次惊艳世界,谷歌果然坐不住了。 GPT-4o掀起的一片“AGI已至”的惊呼声中,刚刚,Google DeepMind首席执行官哈萨比斯亲自携谷歌版《Her》登场。 同样能会还有,不仅能几乎没有延迟地和人类流畅交流,通过摄像头,这个名为P...
-
AI日报:Remini“黏土AI”攻占小红书;HeyGen推自动剪辑工具;多图漫画工具StoryDiffusion来了;AI音乐Udio可生成15分钟音频
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 1、这个五一假期,小红书被Remi...
-
中国首个Sora级大模型Vidu:文本生成16秒,1080p高清视频
4月27日,在2024中关村论坛-未来人工智能先锋论坛上,清华大学联合生数科技正式发布了,中国首个长时间、高一致性、高动态性视频大模型——Vidu。 据悉,Vidu采用了原创的Diffusion与Transformer融合的架构U-ViT,支持文本生成长达...
-
清华团队发布视频大模型Vidu 可生成16 秒、1080P 视频
生数科技与清华大学在中关村论坛未来人工智能先锋论坛上共同发布了中国首个长时长、高一致性、高动态性视频大模型——Vidu。这款模型是国内首个达到Sora级别的视频大模型,标志着中国在视频生成技术领域的重要进展。 Vidu的主要特点和技术创新包括: 模型结构...
-
清华团队国产“Sora”火了:生数科技发布视频大模型「Vidu」
在中关村论坛的未来人工智能先锋论坛中,生数科技与清华大学携手,正式推出了中国首个具备长时长、高一致性及高动态性的视频大模型——“Vidu”。 这款引领时代的视频大模型,其核心在于团队原创的Diffusion与Transformer融合的U-ViT架构。它不...
-
华人持续炸场!8倍于SOTA模型发布,超分辨率细节还原度逆天,终于可以看清楚蜘蛛网丝了!网友:质量真不错!电影时长9秒才够用!
撰稿 | 言征 出品 | 51CTO技术栈(微信号:blog51cto) Sora带火了“视频一致性”的研究,但单纯在时间一致性已经不能满足业内对于高逼真视频的渴望。这不,华人又出来炸场了! 近日,一个名为VideoGigaGAN的视频模型在业界走红。...
-
Open-Sora全面开源升级:支持16s视频生成和720p分辨率
Open-Sora 在开源社区悄悄更新了,现在支持长达16秒的视频生成,分辨率最高可达720p,并且可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。我们来试试效果。 生成个横屏圣诞雪景,发b站 再生成个竖屏,发...
-
被AI改变的00后娱乐习惯
初见文生图、文生视频的震撼还清晰如同昨日,硬糖君的记忆更停留在AI绘画导致LOFTER用户销号事件——可能是这个冷门社区近年来站得最高的一次。但不到两年时间,AIGC已经随风潜入夜。 如果说AI翻唱、AI换脸、AI绘画还是在借助新工具进行自我表达,那么在互...
-
AI视频自动剪辑工具Captions 支持对口型、AI自动添加音效等
兄弟们,这个AI视频剪辑工具真的太牛逼了!这是一个完全基于AI功能构建的革命性视频剪辑产品。名为“Captions”的这个工具可以自动识别超长视频中的重要片段,并将其剪辑成多条适合传播的短视频,这极大地简化了视频剪辑流程。 Captions提供了一系列自...
-
Meta AI推MA-LMM:用于长视频理解的记忆增强多模态大模型
Meta AI近日推出了一种名为MA-LMM的新型模型,旨在解决长期视频理解中的挑战。LLMs在处理文本数据时表现出了令人印象深刻的能力,但在处理视频输入方面存在一些限制,例如上下文长度限制和GPU内存限制。 为了克服这些限制,研究人员提出了MA-LMM,...
-
基于因果推断的推荐系统:回顾和前瞻
本次分享的主题为基于因果推断的推荐系统,回顾过去的相关工作,并提出本方向的未来展望。 为什么在推荐系统中需要使用因果推断技术?现有的研究工作用因果推断来解决三类问题(参见 Gao et al.的 TOIS 2023 论文 Causal Inference...
-
AI日报:GPT-4-Turbo正式版自带读图能力;Gemini1.5Pro开放API;SD3将于4月中旬发布;抖音宫崎骏AI特效爆火
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 📰🤖📢AI新鲜事 OpenAI发...
-
首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作
想了解更多AIGC的内容, 请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 首个开源「世界模型」来了! 来自UC berkeley的研究人员发布并开源了LWM(LargeWorldModel)系列模型: 论文...
-
【Python实用API】语音转文本-whisper
Whisper安装及使用教程 0.Whisper介绍 1.Whisper安装 1.1 依赖库安装 1.2 Whisper安装 2.Whisper使用 2.1 Whisper基本使用(语音识别) 2.2 Whisper进阶使用 2.2.1...
-
首个开源世界模型LWM :百万级上下文,长视频理解超GPT-4
来自加州大学伯克利分校的研究人员最近发布并开源了首个世界模型,被称为 LWM(LargeWorldModel)系列模型。这一模型采用了大量视频和书籍数据集,通过 RingAttention 技术实现了长序列的可扩展训练,使得模型的上下文长度达到了1M to...
-
快手强化学习与多任务推荐
一、Two-Stage Constrained Actor-Critic for Short Video Recommendation 第一篇工作是快手自研的,主要针对的是带约束的多任务场景。 1. 短视频多任务推荐场景 这篇工作主要针对的是短视频的一...
-
抵制过AI的好莱坞能接受Sora?
AI生成视频模型Sora刚诞生一个月,创建者OpenAI计划将之推向好莱坞,建议将Sora应用到电影制作中。最近几周,OpenAI一直与洛杉矶多家影视公司和媒体的高管积极沟通。 先是2月中旬OpenAI公布Sora期间,一些影视行业从业者获得了该模型的内测...
-
52个AIGC视频生成算法模型介绍
基于Diffusion模型的AIGC生成算法日益火热,其中文生图,图生图等图像生成技术普遍成熟,很多算法从业者开始从事视频生成算法的研究和开发,原因是视频生成领域相对空白。 AIGC视频算法发展现状 从2023年开始,AIG...
-
两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源
广阔的战场,风暴兵在奔跑…… prompt:Wide shot of battlefield, stormtroopers running... 这段长达 1200 帧的 2 分钟视频来自一个文生视频(text-to-video)模型,尽管 AI 生成...
-
详解Latte:去年底上线的全球首个开源文生视频DiT
随着 Sora 的成功发布,视频 DiT 模型得到了大量的关注和讨论。设计稳定的超大规模神经网络一直是视觉生成领域的研究重点。DiT [1] 的成功为图像生成的规模化提供了可能性。 然而,由于视频数据的高度结构化与复杂性,如何将 DiT 扩展到视频生成领...