-
豆包视频生成大模型发布:首次突破多主体互动难关
快科技9月24日消息,据媒体报道,字节跳动正式宣告进军AI视频生成。发布豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型发布,面向企业市场开启邀测。 豆包视频生成”大模型凭借其卓越的语义理解能力、对复杂交互画面的精准捕捉以及多镜头...
-
CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:实时4K分辨率4D视图合成
文章链接:https://arxiv.org/pdf/2310.11448 git链接: https://zju3dv.github.io/4k4d/ 本文旨在实现动态3D场景在4K分辨率下的高保真和实时视图合成。最近,一些动态视图合成方法在渲染质量方面...
-
Gen-3 Alpha完全指南:Runway AI视频生成模型使用方法教程与免费体验地址入口
探索Gen-3 Alpha能为你带来哪些改变 为什么选择Gen-3 Alpha? Gen-3 Alpha不仅仅是一款产品——它是一项革命性的技术,致力于在新的基础设施上进行大规模多模态训练,专为创意专业人士、视频制作者和艺术家打造。致力于提供高保真度、一致...
-
CVPR 2024 | 前沿而相对小众!几个AIGC扩散模型diffusion应用一览
1、机器人规划/智能决策 SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution 扩散...
-
自动驾驶第一性之纯视觉静态重建
本文经自动驾驶之心公众号授权转载,转载请联系出处。 纯视觉的标注方案,主要是利用视觉加上一些GPS、IMU和轮速计传感器的数据进行动静态标注。当然面向量产场景的话,不一定非要是纯视觉,有一些量产的车辆里面,会有像固态雷达(AT128)这样的传感器。如...
-
不止3D高斯!最新综述一览最先进的3D重建技术
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 基于图像的3D重建是一项具有挑战性的任务,涉及从一组输入图像推断目标或场景的3D形状。基于学习的方法因其直接估计3D形状的能力而受到关注。这篇综述论文的重点是最先进的...
-
CVPR 2024 | 巨幅提升24%!LiDAR4D会是LiDAR重建的答案么?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 尽管神经辐射场(NeRFs)在图像新视角合成(NVS)方面取得了成功,但激光雷达NVS的发展却相对缓慢。之前的方法follow图像的pipeline,但忽略了激光雷达...
-
DifFlow3D:场景流估计新SOTA,扩散模型又下一城!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:DifFlow3D: Toward Robust Uncertainty-Aware Scene Flow Estimation with Iterative Diffusion-Based...
-
3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑
在最近的研究中,视觉-语言-动作(VLA,vision-language-action)模型的输入基本都是2D数据,没有集成更通用的3D物理世界。 此外,现有的模型通过学习「感知到动作的直接映射」来进行动作预测,忽略了世界的动态性,以及动作和动态之间的关...
-
MOTIA官网体验入口 AI视频内容外延处理工具免费使用地址
MOTIA是一个基于测试时适应的扩散方法,利用源视频内的内在内容和运动模式来有效进行视频外延画。该方法包括内在适应和外在渲染两个主要阶段,旨在提升视频外延画的质量和灵活性。 点击前往MOTIA官网体验入口 谁可以从MOTIA中受益? MOTIA适用于研究...
-
3DGStream:快速训练,200 FPS实时渲染逼真场景!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 从多视角视频构建动态场景的照片逼真的自由视角视频(FVV)仍然是一项具有挑战性的工作。尽管当前的神经渲染技术取得了显著的进步,但这些方法通常需要完整的视频序列来进行离线训练,并且无法实时渲染。为了解决...
-
Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)
原标题:Anything in Any Scene: Photorealistic Video Object Insertion 论文链接:https://arxiv.org/pdf/2401.17509.pdf 代码链接:https://github....
-
MWC 2024丨生成式AIGC成为最大亮点—美格智能携手阿加犀推出多感知融合VSLAM解决方案
2024世界移动通信大会盛况空前,AI成为最大亮点。2月28日,美格智能携手阿加犀,将算力模组的硬件优势与AI优化部署技术相结合,在MWC展会现场展示了基于高算力AI模组的多感知融合VSLAM解决方案。这一创新性方案可应用于智能机器人与低速无人驾驶场景,助...
-
Sora到底是如何工作的?
译者 | 布加迪 审校 | 重楼 上周OpenAI团队推出了Sora这一大规模视频生成模型,展示了模拟物理世界基本方面的新功能。我关注文本生成视频这个领域已有很长一段时间,我认为这个模型代表了质量方面的突飞猛进。 我在Reddit和Twitter上看到...
-
NeRF成为过去?三维重建迈向3D GS新时代!(复旦大学最新综述)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 3D Gaussian Splatting(3D-GS)已成为计算机图形学领域的一个重大进步,它提供了明确的场景表示和新颖的视图合成,而不依赖于神经网络,如神经辐射场...
-
2024年1月17日Arxiv最热论文推荐:清华提出多模态知识检索新框架、MIT新方法大幅提升LLMs的连贯性、浙大新模型助力视频任务新突破、Meta 革新搜索技术、Google革新AI写作
本文整理了今日发表在ArXiv上的AI论文中最热门的TOP5。 论文解读、论文热度排序、论文标签、中文标题、推荐理由和论文摘要均由赛博马良平台(saibomaliang.com)上的智能体 「AI论文解读达人」 提供。 如需查看其他热门论文,欢迎移步 ...
-
AIGC时代智能绘画开启视觉新时代
大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客...
-
开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 三维 Gaussian splatting(3DGS)是近年来在显式辐射场和计算机图形学领域出现的一种变革性技术。这种创新方法的特点是使用了数百万个3D高斯,这与神经...
-
GauHuman开源:基于Gaussian Splatting,高质量3D人体快速重建和实时渲染框架
论文名称:GauHuman: Articulated Gaussian Splatting from Monocular Human Videos 论文下载地址:https://arxiv.org/abs/2312.02973 项目主页:https...
-
AI平台:免费的MG动画制作软件,动画视频制作软件,微课制作软件 - 万彩动画大师官网
免费的MG动画制作软件,动画视频制作软件,微课制作软件 - 万彩动画大师官网 首页 功能 购买VIP 课程 教程 图文教程 视频教程 常见问题 校企合作 角色定制...
-
AI研究也能借鉴印象派?这些栩栩如生的人竟然是3D模型
在 19 世纪,印象主义的艺术运动在绘画、雕塑、版画等艺术领域盛行,其特点是以「短小的、断断续续的笔触,几乎不传达形式」为特征,就是后来的印象派。简单来说印象派笔触未经修饰而显见,不追求形式的精准,模糊的也合理,其将光与色的科学观念引入到绘画之中,革新...
-
数据闭环!DrivingGaussian:逼真环视数据,驾驶场景重建SOTA
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 北大王选计算机研究所的最新工作,提出了DrivingGaussian,一个高效、有效的动态自动驾驶场景框架。对于具有移动目标的复杂场景,首先使用增量静态3D高斯对整个...
-
DrivingGaussian:逼真环视数据,驾驶场景重建SOTA
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:DrivingGaussian: Composite Gaussian Splatting for Surrounding Dynamic Autonomous Driving Scenes...
-
只需一张图片、一句动作指令,Animate124轻松生成3D视频
近一年来,DreamFusion 引领了一个新潮流,即 3D 静态物体与场景的生成,这在生成技术领域引发了广泛关注。回顾过去一年,我们见证了 3D 静态生成技术在质量和控制性方面的显著进步。技术发展从基于文本的生成起步,逐渐融入单视角图像,进而发展到整合...
-
开创全新通用3D大模型,VAST将3D生成带入「秒级」时代
生成式 AI 在3D 领域在很长一段时间内都在等待自己的「ChatGPT」时刻。 传统3D 建模涉及游戏、影视、建筑等多个行业,普遍依赖专业人员手动操作,生产周期短则几天,多则以月为单位,单个3D 模型的创建成本至少需要几千元。生成式 AI 技术在2D 图...
-
逆天!真实可控、可拓展,自动驾驶仿真平台LightSim上新
最近,来自 Waabi AI、多伦多大学、滑铁卢大学和麻省理工的研究者们在 NeurIPS 2023 上提出了一种全新的自动驾驶光照仿真平台 LightSim。研究者们提出了从真实数据中生成配对的光照训练数据的方法,解决了数据缺失和模型迁移损失的问题。L...
-
真实、可控、可拓展,自动驾驶光照仿真平台LightSim上新了
最近,来自 Waabi AI、多伦多大学、滑铁卢大学和麻省理工的研究者们在 NeurIPS 2023 上提出了一种全新的自动驾驶光照仿真平台 LightSim。研究者们提出了从真实数据中生成配对的光照训练数据的方法,解决了数据缺失和模型迁移损失的问题。L...
-
五官乱飞,张嘴、瞪眼、挑眉,AI都能模仿到位,视频诈骗要防不住了
防不住,根本防不住,现在 AI 模仿能力已经发展到这种程度了? 你前脚让自己的五官乱飞,后脚,一模一样的表情就被复现出来,瞪眼、挑眉、嘟嘴,不管多么夸张的表情,都模仿的非常到位。 加大难度,让眉毛挑的再高些,眼睛睁的再大些,甚至连嘴型都是歪的,虚拟人物...
-
YouTube 测试新的 AI 驱动聊天机器人「YouChat」以增强观看体验
YouTube 正在测试一款新的人工智能聊天机器人,能够与观众交谈,让他们「更深入地了解他们正在观看的内容。」 YouTube 宣布,这个新的交流工具将提供「对你正在观看的视频的问题的回答,相关内容的推荐等,所有这些都不会中断播放。」这项名为「YouCh...
-
Nuscenes最新SOTA | DynamicBEV超越PETRv2/BEVDepth!
1. 论文信息 2. 引言 这篇论文介绍了一种新的3D object detection方法,这对于自动驾驶、机器人技术和监控等应用至关重要。传统的3D object detection方法使用鸟瞰视角(BEV)方法,将3D场景简化为2D表示。然而,常...