-
CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:实时4K分辨率4D视图合成
文章链接:https://arxiv.org/pdf/2310.11448 git链接: https://zju3dv.github.io/4k4d/ 本文旨在实现动态3D场景在4K分辨率下的高保真和实时视图合成。最近,一些动态视图合成方法在渲染质量方面...
-
Gaussian Splatting+Stable Diffusion进行3D场景编辑!腾讯提出TIP-Editor新框架!
Gaussian Splatting+Stable Diffusion进行3D场景编辑!腾讯提出TIP-Editor新框架! 原创 小源 数源AI 2024-01-29 20:19 浙江 数源AI 知识星球 数源AI论文推荐知识星球(每日最新论文及资...
-
AI日报:谷歌Gemini 1.5 Flash可免费使用;哩布哩布完成数亿元融资;苹果AI新功能将推迟至iOS 18.1版本
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 1、告别P图困扰!Diffree直...
-
【三维AIGC】扩散模型LDM辅助3D Gaussian重建三维场景
标题:《Sampling 3D Gaussian Scenes in Seconds with Latent Diffusion Models》 来源:Glasgow大学;爱丁堡大学 连接:https://arxiv.org/abs/2406.13099...
-
AI日报:Llama3.1重磅上线;可灵上线国际版1.0并开启付费计划;腾讯PhotoMaker V2升级
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 1、最强开源模型来了!Llama3...
-
AIGC各个应用场景下的模型选择
需要注意的是,下述模型可以在不同任务和领域中灵活应用,它们的归属也会根据模型的设计和主要应用领域而有所变化,并不绝对。 自然语言处理模型 模型层中自然语言理解(Natural LanguageUnderstanding,NLU 和自然语言生成(N...
-
牛津大学最新 | 近400篇总结!畅谈大语言模型与三维世界最新综述
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 随着大型语言模型(LLM)的发展,它们与3D空间数据(3D LLM)之间的集成取得了快速进展,为理解物理空间和与物理空间交互提供了前所未有的能力。本文全面概述了LLM...
-
AI日报:viva发布类Sora视频生成模型;Open AI 宫斗第二季详解;索尼禁止未授权使用其音乐“炼丹”:Coze上线Web SDK
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 1、viva发布类Sora视频生成...
-
不止3D高斯!最新综述一览最先进的3D重建技术
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 基于图像的3D重建是一项具有挑战性的任务,涉及从一组输入图像推断目标或场景的3D形状。基于学习的方法因其直接估计3D形状的能力而受到关注。这篇综述论文的重点是最先进的...
-
一览Occ与自动驾驶的前世今生!首篇综述全面汇总特征增强/量产部署/高效标注三大主题
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 近年来,自动驾驶因其在减轻驾驶员负担和提高驾驶安全方面的潜力而越来越受到关注。基于视觉的三维占用预测是一种新兴的感知任务,适用于具有成本效益的自动驾驶感知系统,它可以...
-
OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架
本文经自动驾驶之心公众号授权转载,转载请联系出处。 从一个新颖的3D MLLM架构开始,该架构使用稀疏查询将视觉表示提升和压缩到3D,然后将其输入LLM。 题目:OmniDrive: A Holistic LLM-Agent Framework for...
-
模糊图像重建重大进展!DeblurGS:相机位姿不准也能极致渲染!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 尽管在从运动模糊图像中重建清晰的3D场景方面取得了重大进展,但向现实世界应用的过渡仍然具有挑战性。主要障碍源于严重的模糊,这导致通过“Structure-from-M...
-
新加坡国立大学 | 通过语言分割任何3D目标
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 本文研究了具有自由形式语言指令的开放词汇3D实例分割(OV-3DIS)。先前的作品只依赖于注释的基本类别进行训练,对看不见的长尾类别的泛化能力有限。最近的工作通过生成类...
-
AI日报:可以在手机上跑的大模型Octopusv2一夜爆火;90后小伙AI“复活”逝者订单超1000;OpenAI允许构建自定义模型;第一个具有情商的对话型AI来了
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ ???AI新鲜事 斯坦福推可以在...
-
3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑
在最近的研究中,视觉-语言-动作(VLA,vision-language-action)模型的输入基本都是2D数据,没有集成更通用的3D物理世界。 此外,现有的模型通过学习「感知到动作的直接映射」来进行动作预测,忽略了世界的动态性,以及动作和动态之间的关...
-
OccFusion:一种简单有效的Occ多传感器融合框架(性能SOTA)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 对3D场景的全面理解在自动驾驶中至关重要,最近的3D语义占用预测模型已经成功地解决了描述具有不同形状和类别的真实世界物体的挑战。然而,现有的3D占用预测方法在很大程度上依赖于全景相机图像,这使得它们容...
-
TripoSR官网体验入口 3D重建AI工具软件使用方法指南教程
TripoSR是由Stability AI与Tripo AI合作开发的3D对象重建模型,能够从单张图片在不到一秒钟的时间内生成高质量的3D模型。该模型在低推理预算下运行,无需GPU,适用于广泛的用户和应用场景。模型权重和源代码已在MIT许可下发布,允许商业...
-
解锁SLAM新纪元!基于NeRF和3D GS方法综述
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 在过去的二十年里,SLAM领域的研究经历了重大的发展,突出了其在实现未知环境的自主探索方面的关键作用。这种演变从手工制作的方法到深度学习时代,再到最近专注于神经辐射场...
-
NeRF成为过去?三维重建迈向3D GS新时代!(复旦大学最新综述)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 3D Gaussian Splatting(3D-GS)已成为计算机图形学领域的一个重大进步,它提供了明确的场景表示和新颖的视图合成,而不依赖于神经网络,如神经辐射场...
-
挖掘BEV潜力的边界!DA-BEV:无监督BEV SOTA新方案!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 今天和大家探讨3D视觉感知领域中的一个特定问题:针对纯视觉的鸟瞰图(BEV)的无监督领Domain Adaptation(Unsupervised Domain Ad...
-
AI视野:谷歌推小模型MobileDiffusion;Midjourney测试风格一致性功能;字节跳动推AI Bot开发平台扣子;LLaVA-1.6赶超Gemini Pro
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ ???AI应用 谷歌最新文生图小型...
-
云端车端MapNeXt全搞定!面向下一代在线高精地图构建
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 在协作、互联和自动化移动(CCAM)中,智能驾驶车辆对周围环境的感知、建模和分析能力越强,它们就越能意识到并能够理解、做出决策,以及安全高效地执行复杂的驾驶场景。高精...
-
UCLA提出多模态具身智能大模型MultiPLY AI首次拥有类人感官
近日,UCLA等机构的研究人员推出了具身智能大模型MultiPLY,该模型不仅具备多模态感知能力,包括触觉、视觉、听觉等,使得AI能够更全面地与3D环境进行交互。这标志着具备多感官能力的大模型成为未来AI发展的重要方向。 MultiPLY在多任务实验中表...
-
Agent触摸汉堡辨冷热,首次拥有类人感官!UCLA等发布3D多模态交互具身智能大模型
具身智能,是大模型未来应用的一个重要方向。 现在,大模型加持下的智能体,能够参与3D环境,不仅有了听觉视觉,还有了触觉等多种感官能力。 卧室里有什么物体,一眼辨认。 听到门铃响了,LLM便会告诉你家里来客人了。 大模型加持的NPC,在触摸桌子的香蕉后,...
-
AIGC原理:扩散模型diffusion综述一:面向视觉计算的扩散模型研究进展
论文地址:State of the Art on Diffusion Models for Visual Computing ? 贴一幅SGM(Score-based Generative Model)的原因是宋飏博士将他2019年提出的SMLD模型和20...
-
几何纹理重建新SOTA!浙大提出SIFU:单图即可重建高质量3D人体模型
在AR、VR、3D打印、场景搭建以及电影制作等多个领域中,高质量的穿着衣服的人体3D模型非常重要。 传统的方法创建这些模型不仅需要大量时间,还需要能够捕捉多视角照片的专业设备,此外还依赖于技术熟练的专业人员。 与此相反,在日常生活中,我们最常见...
-
ReSimAD:如何在没有真实数据的情况下,提升感知模型的泛化性能
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 自动驾驶车辆传感器层面的域变化是很普遍的现象,例如在不同场景和位置的自动驾驶车辆,处在不同光照、天气条件下的自动驾驶车辆,搭载了不同传感器设备的自动驾驶车辆,上述这些...
-
一部iPhone实时渲染300平房间,精度达厘米级别!谷歌最新研究证明NeRF没死
3D实时渲染大型场景,一台电脑,甚至一部手机就可以完成。 从家里的客厅到主卧,储物间,厨房,卫生间各个死角,都能逼真在电脑中完成渲染,如同拍摄实物视频一般。 而且,你还可以在一台iPhone上完成复杂场景渲染。 来自谷歌、谷歌DeepMind和图宾根...
-
AI视野:ComfyUI Lora训练节点来了;“ChatGPT之父”结婚;Topazlabs推视频高清放大工具Topaz Video AI4;阿里云推出第八代企业级实例g8i
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ ???AI新鲜事 ComfyUI...
-
Text2Immersion官网体验入口 文本到3D沉浸式场景生成AI工具免费下载地址
Text2Immersion是一个创新的工具,专门用于从文本提示生成高质量的3D沉浸场景。该方法首先使用预训练的2D扩散和深度估计模型逐步生成高斯云,然后通过精炼和插值处理来增强生成场景的细节。与传统方法相比,Text2Immersion能够创建包含多种物...
-
LangSplat官网体验入口 AI 3D场景构建软件工具免费下载地址
LangSplat是一款利用CLIP语言嵌入映射到3D高斯分布的工具,用于构建3D语言场景并实现对3D场景的开放词汇量查询。它提高了处理效率,避免了NeRF中的昂贵渲染过程,并且学习到的语言特征能精确捕捉对象边界,提供精确的3D语言场景,无需后处理。Lan...
-
基于Stable Diffusion的2D游戏关卡生成【实战】
接下来的几篇文章将与常规主题有所不同(这是在从事通用机器人技术的职业中吸取的教训)。 相反,我决定利用我的一些新空闲时间 1 边做边学,并使用所有酷孩子都在谈论的一些很酷的新 ML。 推荐:用 NSDT设计器 快速搭建可编程3D场景。...
-
数据闭环!DrivingGaussian:逼真环视数据,驾驶场景重建SOTA
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 北大王选计算机研究所的最新工作,提出了DrivingGaussian,一个高效、有效的动态自动驾驶场景框架。对于具有移动目标的复杂场景,首先使用增量静态3D高斯对整个...
-
【Stable Diffusion】——ipDESIGN3D_v20模型使用
ipDESIGN3D_v20模型概述 IPDesign3D_v20是一款专业的3D模型设计软件,适用于建筑、室内设计、产品设计、城市规划和景观设计等领域。它提供了丰富的3D建模工具和功能,包括网格建模、曲面建模、材质和纹理、灯光和阴影、动画和渲染等,可以...
-
Llama 2免费托管及API提供
Llama 2 是 Meta 最新的文本生成模型,目前其性能优于所有开源替代方案。 推荐:用 NSDT编辑器 快速搭建可编程3D场景 1、强大的Llama 2 它击败了 Falcon-40B(之前最好的开源基础模型),与 GPT-3....
-
AI视野:OpenAI否认即将发布GPT-4.5;Stability AI推出新会员模式;DomoAI支持视频一键转动漫;阿里I2VGen-XL模型代码公布
???AI新鲜事 OpenAI否认即将发布GPT-4.5 OpenAI CEO Sam Altman在Reddit上辟谣称公司未计划发布GPT-4.5,否认最新语言模型的泄露,截图显示为虚假信息。 OpenAI新研究:GPT-2能监督GPT-4 研究发现...
-
LLM生成3D场景,无限延伸!斯坦福华人提出3D动画生成框架,一句话一幅图创造无限3D世界
斯坦福华人退学博士开发的Pika,让AI技术和艺术迸发出了绚丽的火花。 最近,又有斯坦福的华人研究人员提出的新的框架——WonderJourney, 可以用一句话或者一张图,自动生成一系列3D场景的连续画面,效果炫酷! 图片 用一张爱丽丝奇境漫游的图片,...
-
一张图or文字生成无限3D世界!斯坦福吴佳俊团队新作,让网友直呼“难以置信”
斯坦福吴佳俊团队打造AI版“爱丽丝梦游仙境”巨作! 仅用一张图or一段文字就能沿相机轨迹生成无限连贯3D场景: 只需输入一段古诗词,诗中场景立刻映入眼帘: 而且还是来回式的,可以再倒回去的那种: 同一起点可以进入不同场景: 真实场景也可以,其中的...
-
视频字幕处理+AI绘画,Runway 全功能超详细使用教程(4)
runway的视频字幕处理、AI绘图功能介绍,感觉完全就是为了做电影而布局,一整套功能都上线了!想系统学习的必收藏! 在深度研究Runway各个功能后,无论是AI视频生成及后期处理技术,还是AI图像生成技术,Runway都很能打,AI视频领域大有可为...
-
AI视野:Copilot将可免费使用GPT-4Turbo;Bing推深度搜索功能;谷歌推桌面版Chrome“帮我写”;百度腾讯等入股无问芯穹
???AI新鲜事 微软Copilot将可免费使用GPT-4Turbo 微软宣布Copilot将集成OpenAI最新工具,特别是强化版的GPT-4Turbo。GPT-4Turbo具有更大的上下文窗口和更新的知识截止日期,提供更深入的见解。微软表示,整合后将使...
-
Llama 2 云端部署与API调用【AWS SageMaker】
Meta 刚刚发布了 Llama 2 大模型。如果你和我们一样,你一定会迫不及待地想要亲自动手并用它来构建。 推荐:用 NSDT设计器 快速搭建可编程3D场景。 使用任何类型的 LLM 进行构建的第一步是将其托管在某处并通过 API 使用...
-
LlamaGPT -基于Llama 2的自托管类chatgpt聊天机器人
LlamaGPT一个自托管、离线、类似 ChatGPT 的聊天机器人,由 Llama 2 提供支持。100% 私密,不会有任何数据离开你的设备。 推荐:用 NSDT编辑器 快速搭建可编程3D场景 1、如何安装LlamaGPT Llam...
-
基于Stable Diffusion的图像合成数据集
当前从文本输入生成合成图像的模型不仅能够生成非常逼真的照片,而且还能够处理大量不同的对象。 在论文“评估使用稳定扩散生成的合成图像数据集”中,我们使用“稳定扩散”模型来研究哪些对象和类型表现得如此逼真,以便后续图像分类正确地分配它们。 这使我们能够根据现实...
-
Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快
Stable Diffusion官方终于对视频下手了—— 发布生成式视频模型Stable Video Diffusion(SVD)。 Stability AI官方博客显示,全新SVD支持文本到视频、图像到视频生成: 并且还支持物体从单一视角到多视角的...
-
【Midjourney电商与平面设计实战】创作效率提升300%
不得不说,最近智能AI的话题火爆圈内外啦。这不,战火已经从IT行业燃烧到设计行业里了。 刚研究完ChatGPT,现在又出来一个AI作图Midjourney。 其视觉效果令不少网友感叹:“AI已经不逊于人类画师了!” 现如今,在AIGC 热潮下...
-
AI原生3D创作平台Mootion 提供丰富创作场景
Mootion是一款致力于激发用户自然创造力的AI原生3D创作平台。通过先进的人工智能技术,用户可以在虚拟空间中快速生成各种创意的3D场景和动画效果,无需专业的设计技能。 体验地址:https://www.mootion.com/landing 该平台提...
-
文本生成高精准3D模型,北京智源AI研究院等出品—3D-GPT
北京智源AI研究院、牛津大学、澳大利亚国立大学联合发布了一项研究—3D-GPT,通过文本问答方式就能创建高精准3D模型。 据悉,3D-GPT使用了大语言模型的多任务推理能力,通过任务调度代理、概念化代理和建模代理三大模块,简化了3D建模的开发流程实现技术民...
-
Llama大模型运行的消费级硬件要求【CPU|GPU|RAM|SSD】
大型语言模型 (LLM 是强大的工具,可以为各种任务和领域生成自然语言文本。 最先进的LLM之一是 LLaMA(大型语言模型 Meta AI),这是由 Facebook 的研究部门 Meta AI 开发的一个包含 650 亿个参数的模型 要在家运行 L...
-
Nuscenes最新SOTA | DynamicBEV超越PETRv2/BEVDepth!
1. 论文信息 2. 引言 这篇论文介绍了一种新的3D object detection方法,这对于自动驾驶、机器人技术和监控等应用至关重要。传统的3D object detection方法使用鸟瞰视角(BEV)方法,将3D场景简化为2D表示。然而,常...
-
Meta推出AI模拟环境Habitat 3.0 为机器人训练提供更真实的场景
FAIR团队最新推出的Habitat3.0引起了广泛关注,这是一个令人激动的增强型AI模拟环境,旨在训练机器人在真实场景中进行导航。这一创新的推出对于提升AI模拟环境的仿真程度具有重要意义。 通过Habitat3.0,机器人可以在更真实的场景中接受训练,从...