-
【AIGC从零开始】AIGC小白学习心得第二讲:3D生成模型
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一、Stable Video 3D(sv3d) 二、TripoSR 三、LRM系列 1.LRM 2.GS-LRM 3.OpenLRM 四、CRM 五...
-
CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:实时4K分辨率4D视图合成
文章链接:https://arxiv.org/pdf/2310.11448 git链接: https://zju3dv.github.io/4k4d/ 本文旨在实现动态3D场景在4K分辨率下的高保真和实时视图合成。最近,一些动态视图合成方法在渲染质量方面...
-
Midjourney绘画提示词精选
Midjourney绘画提示词精选 在探索Midjourney这一强大的AI绘画工具时,选择合适的提示词是创作出令人惊艳作品的关键。这些提示词不仅能够帮助Midjourney理解你的创作意图,还能引导它生成出符合你期望的图像。以下是对Midjourney...
-
记录midjourney动漫角色设计提示词
文章目录 前言 一、风格测试,不同的风格在同一个词组下的体验 二部分提示词使用说明 三附加一组设计好之后的动漫角色图片 总结 前言 最近从研究comfyUI到 midjourney 生图,一并研究了一下对应的角色生成提示词语...
-
每日AIGC最新进展(47):华中科技大学联合南京大学提出大型人体数据集WildAvatar
Diffusion Models专栏文章汇总:入门与实战 WildAvatar是一个来自YouTube的大型数据集,拥有10,000多个人类受试者,旨在解决现有实验室数据集在头像创建方面的局限性。 用于虚拟角色创建的现有人类数据集通常仅限于实验...
-
每日AIGC最新进展(30):阿卜杜拉国王大学提出旋转视角视频生成Vivid-ZOO、浙江大学提出4D场景编辑Instruct 4D-to-4D、西安交大提出3D重建大规模数据集OpenMateria
Diffusion Models专栏文章汇总:入门与实战 Vivid-ZOO: Multi-View Video Generation with Diffusion Model 本文提出了一种名为Vivid-ZOO的新型扩散模型,用于从文本...
-
用于精确目标检测的多网格冗余边界框标注
本文经计算机视觉研究院公众号授权转载,转载请联系出处。 一、前言 现在领先的目标检测器是从基于深度CNN的主干分类器网络重新调整用途的两级或单级网络。YOLOv3就是这样一种众所周知的最先进的单级检测器,它接收输入图像并将其划分为大小相等的网格矩阵。具...
-
如何保证每次画出的都同一张人脸?AI绘画Stable Diffusion的Reference only教程
Ai绘画有一个很现实的问题,要保证每次画出的都是同一个人物的话,很费劲。 Midjourney就不必说了,人物的高度一致性一直得不到很好的解决。而在Stable Diffusion(SD)中,常用办法是通过同一个Seed值(种子值),或者通过训练同一个人...
-
DiffMap:首个利用LDM来增强高精地图构建的网络
本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文标题: DiffMap: Enhancing Map Segmentation with Map Prior Using Diffusion Model 论文作者: Peijin Jia, Tuo...
-
14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?
2023-2024年,以 GPT-4V、Gemini、Claude、LLaVA 为代表的多模态大模型(Multimodal LLMs)已经在文本和图像等多模态内容处理方面表现出了空前的能力,成为技术新浪潮。 然而,对于这些模型的评测多集中于语言上的任务,...
-
LLM全搞定!OmniDrive:集3D感知、推理规划于一体(英伟达最新)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 这篇论文致力于解决当前多模态大语言模型 (MLLMs 在自动驾驶应用中存在的关键挑战,尤其是将MLLMs从2D理解扩展到3D空间的问题。由于自动驾驶车辆 (AVs ...
-
多模态大模型有了统一分割框架,华科PSALM多任务登顶,模型代码全开源
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 最近,多模态大模型(LMM)取得了一系列引人注目的成就,特别是在视觉 - 语言任务上的表现令人瞩目。它们的成功不仅展现了多模态大模型在各...
-
3D视觉绕不开的点云配准!一文搞懂所有主流方案与挑战
本文经自动驾驶之心公众号授权转载,转载请联系出处。 作为点集合的点云有望在3D重建、工业检测和机器人操作中,在获取和生成物体的三维(3D)表面信息方面带来一场改变。最具挑战性但必不可少的过程是点云配准,即获得一个空间变换,该变换将在两个不同坐标中获取的...
-
Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放
Stability AI 的大模型家族来了一位新成员。 昨日,Stability AI 继推出文生图 Stable Diffusion、文生视频 Stable Video Diffusion 之后,又为社区带来了 3D 视频生成大模型「Stable Vi...
-
Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩
Stable Diffusion背后公司Stability AI又上新了。 这次带来的是图生3D方面的新进展: 基于Stable Video Diffusion的Stable Video 3D(SV3D),只用一张图片就能生成高质量3D网格。 Stab...
-
Stable Video 3D官网体验入口 AI 3D生成工具使用方法教程说明
Stable Video 3D是Stability AI推出的新模型,在3D技术领域取得了显著进步。与之前发布的Stable Zero123 相比,Stable Video 3D提供了大幅改进的质量和多视角支持。该模型能够在没有相机条件的情况下,基于单张图...
-
3DGStream:快速训练,200 FPS实时渲染逼真场景!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 从多视角视频构建动态场景的照片逼真的自由视角视频(FVV)仍然是一项具有挑战性的工作。尽管当前的神经渲染技术取得了显著的进步,但这些方法通常需要完整的视频序列来进行离线训练,并且无法实时渲染。为了解决...
-
VAD v2端到端SOTA | 远超DriveMLM等方法(地平线)
从大规模驾驶演示中学习类似人类的驾驶策略是很有前途的,但规划的不确定性和非确定性本质使得这一任务充满挑战。在这项工作中,为了应对不确定性问题,作者提出了VADv2,一个基于概率规划的端到端驾驶模型。VADv2以流方式输入多视角图像序列,将传感器数据转换为...
-
初创公司Particle.news推出“多视角”新闻阅读体验 解决AI对新闻生态系统的影响
由前 Twitter 工程师领导的团队正在重新思考如何使用人工智能来帮助人们处理新闻和信息。上周末进入内测的Particle.news是一家新的初创公司,提供个性化、“多视角”的新闻阅读体验,,通过利用人工智能来总结新闻,并以公平的方式呈现新闻内容。 据了...
-
Sora训练数据疑暴露,网友:绝对用了UE5
好消息,好消息,真·Sora视频上新了!走过路过不要错过! (不用苦苦等候,或撑大眼睛费劲吧啦鉴别真假Sora产品了)。 就在过去短短几个小时里,包括Bill Peebles、Tim Brooks两位负责人在内的工作人员唰唰唰N连发。 (好了好了,知...
-
大型多视角高斯模型LGM:5秒产出高质量3D物体,可试玩
为满足元宇宙中对 3D 创意工具不断增长的需求,三维内容生成(3D AIGC)最近受到相当多的关注。并且,3D 内容创作在质量和速度方面都取得了显著进展。 尽管当前的前馈式生成模型可以在几秒钟内生成 3D 对象,但它们的分辨率受到训练期间所需密集计算的限...
-
OccNeRF:完全无需激光雷达数据监督
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人总结 近年来,3D 占据预测(3D Occupancy Prediction)任务因其独特的优势获得了学界及业界的广泛关注。3D 占据预测通过重建周围环境的 3D 结构为自...
-
音频秒生全身虚拟人像,AI完美驱动面部肢体动作!UC伯克利Meta提出Audio2Photoreal
就在最近,Meta和UC伯克利联合提出了一种全新的虚拟人物形象生成的方法—— 直接根据音频生成全身人像,效果不仅逼真,还能模拟出原音频中包含的细节,比如手势、表情、情绪等等。 图片 论文地址:https://arxiv.org/abs/2401.0188...
-
首个环视世界模型DrivingDiffusion: BEV数据和仿真新思路!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 笔者的一些个人思考 在自动驾驶领域,随着BEV-based子任务/端到端方案的发展,高质量的多视图训练数据和相应的仿真场景构建愈发重要。针对当下任务的痛点,“高质量”可以解耦成三个方面: 不同维度...
-
史上最全知识图谱建模实践(下):多元关系架构
在“知识图谱之本体结构与语义解耦——基于OpenSPG的建模实践(上)”一文中,我们从实体关系设计和概念语义建模2种场景,讲解了基于SPG的知识建模的方法和案例。 本文中,我们将继续讲解多元关系架构场景中的知识建模实践。如果你的图谱,涉及对带有时空信息的...
-
Warning!远距离LiDAR感知
本文经自动驾驶之心公众号授权转载,转载请联系出处。 一、引言 去年开了图森ai day之后,一直想以文字形式总结一下这几年在远距离感知方面所做的工作,正好最近有时间了,就想写一篇文章记录一下这几年的研究历程。本文所提到的内容都在图森ai day视频[0]...
-
Camera or Lidar?如何实现鲁棒的3D目标检测?最新综述!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 0. 写在前面&&个人理解 自动驾驶系统依赖于先进的感知、决策和控制技术,通过使用各种传感器(如相机、激光雷达、雷达等)来感知周围环境,并利用算法和模型进行实时分析和决策。这使得车辆...
-
迈向端到端自动驾驶,地平线正式开源Sparse4D算法
1月22日,地平线将纯视觉自动驾驶算法——Sparse4D系列算法开源,推动行业更多开发者共同参与到端到端自动驾驶、稀疏感知等前沿技术方向的探索中。目前,Sparse4D算法已在GitHub平台上线,开发者可关注地平线GitHub官方账号“Horizon...
-
逆天了!UniVision:BEV检测和Occupancy联合统一框架,双任务SOTA!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&个人理解 最近这几年以视觉为中心的3D感知在自动驾驶中得到了快速发展。尽管3D感知模型在结构和概念上有许多相似之处,但在特征表示、数据格式和目标方面仍存在差距,这对统一高效的3D感知...
-
Pika、Gen-2、ModelScope、SEINE……AI视频生成哪家强?这个框架一测便知
AI 视频生成,是最近最热门的领域之一。各个高校实验室、互联网巨头 AI Lab、创业公司纷纷加入了 AI 视频生成的赛道。Pika、Gen-2、Show-1、VideoCrafter、ModelScope、SEINE、LaVie、VideoLDM 等视...
-
世纪华通脑科学研究成果持续落地 数药智能孤独症训练好帮手《AI星河》问世
继本月数药智能自主研发的专数达®《注意力强化训练软件》成功启动商业化进程之后,另一款孤独症康复训练软件《AI星河》也正式问世,进一步扩展了公司的产品线,以满足不断增长的市场需求和客户期望。 孤独症康复训练软件《AI星河》情景模拟对话之餐厅 孤独症康复训...
-
一键实景转动画,清华系初创公司全球首发4D骨骼动画框架,还能生成个性化角色
前几日,苹果宣布首款虚拟头显设备 Vision Pro 将于 2 月 2 日正式发售,XR 设备作为下一代终端预计将迎来快速发展。未来随着虚拟显示设备的普及,数字交互将从平面走向立体,立体模型、立体动画将成为未来主流的内容形态,虚实融合下的多维沉浸式交互...
-
几何纹理重建新SOTA!浙大提出SIFU:单图即可重建高质量3D人体模型
在AR、VR、3D打印、场景搭建以及电影制作等多个领域中,高质量的穿着衣服的人体3D模型非常重要。 传统的方法创建这些模型不仅需要大量时间,还需要能够捕捉多视角照片的专业设备,此外还依赖于技术熟练的专业人员。 与此相反,在日常生活中,我们最常见...
-
只需2分钟,单视图3D生成又快又好!北大等提出全新Repaint123方法
将一幅图像转换为3D的方法通常采用Score Distillation Sampling(SDS)的方法,尽管结果令人印象深刻,但仍然存在多个不足之处,包括多视角不一致、过度饱和、过度平滑的纹理,以及生成速度缓慢等问题。为了解决这些问题,北京大学、新加坡...
-
1张图2分钟转3D!纹理质量、多视角一致性新SOTA|北大出品
只需两分钟,玩转图片转3D! 还是高纹理质量、多视角高一致性的那种。 不管是什么物种,输入时的单视图图像还是这样婶儿的: 两分钟后,3D版大功告成: △上,Repaint123(NeRF);下,Repaint123(GS) 新方法名为Repaint...
-
顺着网线爬过来成真了,Audio2Photoreal通过对话就能生成逼真表情与动作
当你和朋友隔着冷冰冰的手机屏幕聊天时,你得猜猜对方的语气。当 Ta 发语音时,你的脑海中还能浮现出 Ta 的表情甚至动作。如果能视频通话显然是最好的,但在实际情况下并不能随时拨打视频。 如果你正在与一个远程朋友聊天,不是通过冰冷的屏幕文字,也不是缺乏表情...
-
端到端的自动驾驶会取代Apollo、autoware这类框架吗?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 Rethinking the Open-Loop Evaluation of End-to-End Autonomous Driving in nuScenes 作者单位:百度 作者:共一 Jian...
-
AI研究也能借鉴印象派?这些栩栩如生的人竟然是3D模型
在 19 世纪,印象主义的艺术运动在绘画、雕塑、版画等艺术领域盛行,其特点是以「短小的、断断续续的笔触,几乎不传达形式」为特征,就是后来的印象派。简单来说印象派笔触未经修饰而显见,不追求形式的精准,模糊的也合理,其将光与色的科学观念引入到绘画之中,革新...
-
用扩散模型监督NeRF,清华文生3D新方法成新SOTA
用文字合成3D图形的AI模型,又有了新的SOTA! 近日,清华大学刘永进教授课题组提出了一种基于扩散模型的文生3D新方式。 无论是不同视角间的一致性,还是与提示词的匹配度,都比此前大幅提升。 图片 文生3D是3D AIGC的热点研究内容,得到了学术界和工...
-
提高LLaMA-7B的数学推理能力
概述 这篇文章探讨了利用多视角微调方法提高数学推理的泛化能力。数学推理在相对较小的语言模型中仍然是一个挑战,许多现有方法倾向于依赖庞大但效率低下的大语言模型进行知识蒸馏。研究人员提出了一种避免过度依赖大语言模型的新方法,该方法通过有效利用具有不同注释格式...
-
什么?NeRF还能提升BEV泛化性能!首个BEV跨域开源代码并首次完成Sim2Real!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人总结 鸟瞰图(Bird eye's view, BEV 检测是一种通过融合多个环视摄像头来进行检测的方法。目前算法大部分算法都是在相同数据集训练并且评测,这导致了这些算法过...
-
只需一张图片、一句动作指令,Animate124轻松生成3D视频
近一年来,DreamFusion 引领了一个新潮流,即 3D 静态物体与场景的生成,这在生成技术领域引发了广泛关注。回顾过去一年,我们见证了 3D 静态生成技术在质量和控制性方面的显著进步。技术发展从基于文本的生成起步,逐渐融入单视角图像,进而发展到整合...
-
开创全新通用3D大模型,VAST将3D生成带入「秒级」时代
生成式 AI 在3D 领域在很长一段时间内都在等待自己的「ChatGPT」时刻。 传统3D 建模涉及游戏、影视、建筑等多个行业,普遍依赖专业人员手动操作,生产周期短则几天,多则以月为单位,单个3D 模型的创建成本至少需要几千元。生成式 AI 技术在2D 图...
-
AI视野:OpenAI否认即将发布GPT-4.5;Stability AI推出新会员模式;DomoAI支持视频一键转动漫;阿里I2VGen-XL模型代码公布
???AI新鲜事 OpenAI否认即将发布GPT-4.5 OpenAI CEO Sam Altman在Reddit上辟谣称公司未计划发布GPT-4.5,否认最新语言模型的泄露,截图显示为虚假信息。 OpenAI新研究:GPT-2能监督GPT-4 研究发现...
-
RayDF:实时渲染!基于射线的三维重建新方法
本文经自动驾驶之心公众号授权转载,转载请联系出处。 图片 论文链接:https://arxiv.org/pdf/2310.19629 代码链接:https://github.com/vLAR-group/RayDF 主页:https://vlar-gro...
-
HumanGaussian开源:基于Gaussian Splatting,高质量 3D 人体生成新框架
在 3D 生成领域,根据文本提示创建高质量的 3D 人体外观和几何形状对虚拟试穿、沉浸式远程呈现等应用有深远的意义。传统方法需要经历一系列人工制作的过程,如 3D 人体模型回归、绑定、蒙皮、纹理贴图和驱动等。为了自动化 3D 内容生成,此前的一些典型工作...
-
自动驾驶大模型论文调研与简述
最近关于大模型(LLMs, VLM 与自动驾驶相关文献调研与汇总: 适合用于什么任务?答:目前基本上场景理解、轨迹预测、行为决策、运动规划、端到端控制都有在做。 大家都怎么做的? 对于规控任务,LLM型基本是调用+Prompt设计,集中在输入和输出设计...
-
DetZero:Waymo 3D检测榜单第一,媲美人工标注!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 本文提出了一套离线3D物体检测算法框架DetZero,通过在 Waymo 公开数据集上进行全面的研究和评估,DetZero可生成连续且完整的物体轨迹序列,并充分利用长时序点云特征显着提升感知结果的质...
-
AI视觉字谜爆火!梦露转180°秒变爱因斯坦,英伟达高级AI科学家:近期最酷的扩散模型
AI画的玛丽莲·梦露,倒转180°后,竟然变成了爱因斯坦?! 这是最近在社交媒体上爆火的扩散模型视错觉画,随便给AI两组不同的提示词,它都能给你画出来! 哪怕是截然不同的对象也可以,例如一位男子,经过反色处理,就神奇地转变成一名女子: 就连单词也能被...
-
AI绘图提示词系列-提示词表(Stable Diffusion Prompt 设计师操作手册)
反向常用: ((nsfw ,((ugly ,(((duplicate ,((morbid ,((mutilated ,(((tranny ,(((trans ,((trannsexual ,(((mutation ,(((d...