-
真人版“奇迹暖暖”?谷歌阿里竞相布局的AI试衣有何商机?
618开始了,你可能加购了很多夏季新衣,想趁优惠激情下单,但一想到每件都要试穿,不合适的还要退货邮寄,其繁琐程度又让你望而却步。 “要是有人能帮我试穿衣服就好了。” 基于这样的消费心声,多款AI虚拟试衣产品相继上线。 据“头号AI玩家”不完全统计,目前AI...
-
世界模型也扩散!训练出的智能体竟然不错
世界模型提供了一种以安全且样本高效的方式训练强化学习智能体的方法。近期,世界模型主要对离散潜在变量序列进行操作来模拟环境动态。 然而,这种压缩为紧凑离散表征的方式可能会忽略对强化学习很重要的视觉细节。另一方面,扩散模型已成为图像生成的主要方法,对离散潜在...
-
我们该如何看待AIGC(人工智能)
目录 AIGC的概述: AIGC的发展经历: AIGC的发展带来的机遇: 我们该如何去看待AIGC: AIGC的概述: @[TOC]( ?文章目录 ---AIGC全称为AI-Generated Content,指基于生成对抗网...
-
AI 框架Ambient Diffusion:从图像中获取灵感,而非复制
强大的人工智能模型有时会出现错误,包括虚构错误信息或将他人作品作为自己的。为了解决后者的问题,德克萨斯大学奥斯汀分校的研究团队开发了一种名为 "Ambient Diffusion" 的框架。该框架通过对无法辨认的图像数据进行训练,绕过了 AI 模型复制他人...
-
牛津大学最新 | 近400篇总结!畅谈大语言模型与三维世界最新综述
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 随着大型语言模型(LLM)的发展,它们与3D空间数据(3D LLM)之间的集成取得了快速进展,为理解物理空间和与物理空间交互提供了前所未有的能力。本文全面概述了LLM...
-
不止3D高斯!最新综述一览最先进的3D重建技术
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 基于图像的3D重建是一项具有挑战性的任务,涉及从一组输入图像推断目标或场景的3D形状。基于学习的方法因其直接估计3D形状的能力而受到关注。这篇综述论文的重点是最先进的...
-
首个中文原生DiT架构!腾讯混元文生图大模型全面开源,免费商用
中文 AI 社区迎来了一个好消息:与 Sora 同架构的开源文生图大模型来了! 5 月 14 日,腾讯宣布旗下混元文生图大模型全面升级并全面开源,目前已在 Hugging Face 平台及 GitHub 上发布,包含模型权重、推理代码、模型算法等完整模型...
-
为什么腾讯认为DiT架构是未来的主流?做了哪些改进?
OpenAI迭代ChatGPT的过程,发现随着参数量的提升,基于Transformer 架构的大语言模型出现了涌现现象。因此,在文生图领域,很可能参数量更大的模型,也会更“聪明”。 而此前文生图领域大火的Unet 模型容易陷入性能瓶颈与可扩展性的问题,且...
-
腾讯宣布混元文生图大模型开源: Sora 同架构,可免费商用
5月14日,腾讯宣布旗下的混元文生图大模型全面升级并对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。 这是业内首个中文原生的 DiT 架构文生图开源模型...
-
重磅!腾讯宣布混元文生图大模型开源: Sora 同架构,中英文原生DiT,可免费商用
5月14日,腾讯宣布旗下的混元文生图大模型全面升级并对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。 这是业内首个中文原生的DiT架构文生图开源模型,支...
-
西浦、利物浦大学提出:点云数据增强首个全面综述
本论文的第一作者朱钦峰是西交利物浦大学和利物浦大学联合培养的一年级在读博士,其导师为范磊副教授。他的主要研究方向为语义分割、多模态信息融合、3D视觉、高光谱图像和数据增强。 本文是对发表于模式识别领域顶刊Pattern Recognition 2024的...
-
所有生命分子一夜皆可AI预测!AlphaFold 3改变人类对生命的理解,全球科学家都能免费使用
AlphaFold 3再登Nature! 这次重磅升级,不再仅限于蛋白质结构预测——可以以前所未有的精度预测所有生命分子的结构和相互作用。 只有了解它们如何在数百万种组合中相互作用,我们才能开始真正理解生命的过程。 这次的最大创新之一,是用上了AI绘画...
-
AlphaFold 3一夜预测地球所有生物分子,谷歌DeepMind颠覆生物学登Nature头版!
时隔3年,AlphaFold 3横空出世,再次掀起AI学术圈巨震! 初代AlphaFold诞生之后,一直停留在预测「蛋白质」的宇宙中。 今天,升级后的AlphaFold 3能够以前所未有的「原子精度」,预测出所有生物分子的结构和相互作用。 图片 最重要的...
-
看透物体的3D表示和生成模型:NUS团队提出X-Ray
项目主页:https://tau-yihouxiang.github.io/projects/X-Ray/X-Ray.html 论文地址:https://arxiv.org/abs/2404.14329 代码地址:https://github.com...
-
InstantMesh:新AI框架可在10秒内从2D图像生成高质量3D网格
根据研究团队发表的预印本文章,InstantMesh是由腾讯PCG ARC实验室和上海科技大学的研究人员开发的人工智能框架,能够在仅需10秒的时间内,从单个2D图像生成高质量的3D网格。 该开源框架由多视图扩散模型和3D网格重建模型组成,通过使用不同角度...
-
清华团队发布视频大模型Vidu 可生成16 秒、1080P 视频
生数科技与清华大学在中关村论坛未来人工智能先锋论坛上共同发布了中国首个长时长、高一致性、高动态性视频大模型——Vidu。这款模型是国内首个达到Sora级别的视频大模型,标志着中国在视频生成技术领域的重要进展。 Vidu的主要特点和技术创新包括: 模型结构...
-
清华团队国产“Sora”火了:生数科技发布视频大模型「Vidu」
在中关村论坛的未来人工智能先锋论坛中,生数科技与清华大学携手,正式推出了中国首个具备长时长、高一致性及高动态性的视频大模型——“Vidu”。 这款引领时代的视频大模型,其核心在于团队原创的Diffusion与Transformer融合的U-ViT架构。它不...
-
探讨自回归模型和扩散模型的发展应用
在当前大模型驱动的内容创新浪潮中,人工智能产业正以前所未有的力度拥抱一场由大模型技术策动的科技革新运动。这场革命不仅重塑了人机交互的边界,使其跃升至更高层次的认知协作,而且正在颠覆传统的计算思维与执行模式,催生出全新的计算范式,从而深刻地渗透并革新各行各...
-
CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:Towards Realistic Scene Generation with LiDAR Diffusion Models 论文链接:https://hancyran.github.io/a...
-
药物分子设计新策略,微软条件扩散模型DiffLinker登Nature子刊
药理学领域的化学空间高达 10^60,在广阔的化学空间中进行搜索,给药物设计带来了巨大的挑战。 基于片段的药物发现一直是早期药物开发的有效范例。然而,该领域面临的一个挑战是,如何设计断开的感兴趣分子片段之间的连接子(linker),生成化学上合理的候选药...
-
超越BEVFusion!DifFUSER:扩散模型杀入自动驾驶多任务(BEV分割+检测双SOTA)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 目前,随着自动驾驶技术的越发成熟以及自动驾驶感知任务需求的日益增多,工业界和学术界非常希望一个理想的感知算法模型,可以同时完成如3D目标检测以及基于BEV空间的语义分...
-
LiDAR仿真新思路 | LidarDM:助力4D世界生成,仿真杀器~
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:LidarDM: Generative LiDAR Simulation in a Generated World 论文链接:https://arxiv.org/pdf/2404.02903....
-
扩散模型如何帮助创建更好的强化学习系统
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 扩散模型以其令人印象深刻的生成高质量图像的能力而闻名,它们是流行的文本到图像模型(例如DALL-E、Stable Diffusion和...
-
雨云GPU云服务器搭建SD(Stable Diffusion)的教程,搭建自己的AI绘画网站,AIGC
Stable Diffusion是什么 Stable Diffusion是一种基于潜在扩散模型(Latent Diffusion Models)的文本到图像生成模型,由CompVis、Stability AI和LAION的研究人员和工程师共同创建。...
-
得物 AIGC 算法岗(日常实习生) 面经分享
节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学,针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。 最大的感受就是,今年的算法面试...
-
Diffusion-RWKV官网体验入口 AI生成高质量图像工具使用地址
Diffusion-RWKV是一种基于RWKV架构的扩散模型,旨在提高扩散模型的可扩展性。它针对图像生成任务进行了相应的优化和改进,可以生成高质量的图像。该模型支持无条件和类条件训练,具有较好的性能和可扩展性。 点击前往Diffusion-RWKV官网体...
-
ELLA官网体验入口 腾讯AI文本到图像语义对齐工具使用介绍
ELLA是一种轻量级方法,可将现有的基于CLIP的扩散模型配备强大的LLM。ELLA提高了模型的提示跟随能力,使文本到图像模型能够理解长文本。我们设计了一个时间感知语义连接器,从预训练的LLM中提取各种去噪阶段的时间步骤相关条件。我们的TSC动态地适应了不...
-
AIGC-Stable Diffusion发展及原理总结
目录 一. AIGC介绍 1. 介绍 2. AIGC商业化方向 3. AIGC是技术集合 4. AIGC发展三要素 4.1 数据 4.2 算力 4.3 算法 4.3.1 多模态模型CLIP 4.3.2 图像生成模型 二. Stable...
-
VAR官网体验入口 自回归式AI视觉生成工具使用地址
VAR是一种新的视觉自回归建模方法,能够超越扩散模型,实现更高效的图像生成。它建立了视觉生成的幂律scaling laws,并具备零shots的泛化能力。VAR提供了一系列不同规模的预训练模型,供用户探索和使用。 点击前往VAR官网体验入口 谁可以从VA...
-
【stable diffusion扩散模型】一篇文章讲透
目录 一、引言 二、Stable Diffusion的基本原理 1 扩散模型 2 Stable Diffusion模型架构 3 训练过程与算法细节 三、Stable Diffusion的应用领域 1 图像生成与艺术创作 2 图像补全与修复...
-
FouriScale官网体验入口 高分辨率图像AI生成工具使用方法教程指南
FouriScale是一款可以从预训练的扩散模型生成高分辨率图像的工具。它通过创新的、无需训练的方法,结合膨胀技术和低通操作的方法,成功实现了灵活处理各种宽高比文本到图像生成。使用FouriScale作为指导,这个工具成功平衡了生成图像的结构完整性和保真度...
-
大模型融合!最新「进化算法」全自动组合开源模型,刷榜多项基准测试
人类智慧的基础并不在于单个聪明的个体,而在于集体智慧。 比如说,我们的社会和经济体系就是建立在由具有不同专业和专长的不同个人组成的许多机构的基础上的。 Sakana AI团队相信,人工智能的发展也将遵循类似的集体道路。 人工智能的未来不会是一个单一的、巨...
-
无需训练,这个新方法实现了生成图像尺寸、分辨率自由
近期,扩散模型凭借其出色的性能已超越 GAN 和自回归模型,成为生成式模型的主流选择。基于扩散模型的文本到图像生成模型(如 SD、SDXL、Midjourney 和 Imagen)展现了生成高质量图像的惊人能力。通常,这些模型在特定分辨率下进行训练,以确...
-
DreaMoving可控制AI视频生成框架使用地址 阿里dreamoving官方入口
DreaMoving是什么? DreaMoving是阿里一个基于扩散模型的可控制视频生成框架,用于生成高质量的定制人类舞蹈视频。通过给定目标身份和姿势序列,DreaMoving可以生成一个目标身份的视频,驱动姿势序列在任何地方跳舞。该模型易于使用,并可适...
-
北航联合港大发布全新文本引导矢量图形合成方法SVGDreamer
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 可缩放矢量图形(Scalable Vector Graphics,SVG)是用于描述二维图型和图型应用程序的基本元素;与传统的像素图形...
-
攻陷短视频后,Sora将需要72万块H100 GPU
OpenAI 推出的 Sora 模型能够在各种场景下生成极其逼真的视频,吸引了全世界的目光。 近日,投资机构 factorial funds 发表了一篇博文,深入探讨了 Sora 背后的一些技术细节,并对这些视频模型可能产生影响进行了探讨。 最后,文中还...
-
CVPR 2024满分论文,英伟达开源BOP排行榜6D物体姿态第一名方法
想了解更多AIGC的内容, 请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 物体姿态估计对于各种应用至关重要,例如机器人操纵和混合现实。实例级方法通常需要纹理 CAD 模型来生成训练数据,并且不能应用于测试时未...
-
值得你花时间看的扩散模型教程,来自普渡大学
想了解更多AIGC的内容: 请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 扩散模型(Diffusion Model)是图像生成模型的一种。有别于此前 AI 领域大名鼎鼎的 GAN、VAE 等算法,扩散模型另辟...
-
(含代码)利用NVIDIA Triton加速Stable Diffusion XL推理速度
在 NVIDIA AI 推理平台上使用 Stable Diffusion XL 生成令人惊叹的图像 扩散模型正在改变跨行业的创意工作流程。 这些模型通过去噪扩散技术迭代地将随机噪声塑造成人工智能生成的艺术,从而基于简单的文本或图像输入生成令人惊叹的...
-
Scaling Law被证伪,谷歌研究人员实锤研究力挺小模型更高效,不局限于特定采样技术!
出品 | 51CTO技术栈(微信号:blog51cto) “模型越大,效果越好”,Scaling Law再次被OpenAI带火了,但谷歌的研究人员的最新研究证伪了这一观点。 在周一发表的一项研究中,谷歌研究院和约翰霍普金斯大学的研究人员对人工智能 (AI...
-
ICCV 2023 | 最全AIGC梳理,5w字30个diffusion扩散模型方向,近百篇论文!
30个方向130篇!CVPR 2023最全AIGC论文 25个方向!CVPR 2022 GAN论文汇总 35个方向!ICCV 2021 最全GAN论文汇总 超110篇!CVPR 2021 最全GAN论文梳理 超100篇!CVPR 2...
-
什么是stable diffusion?
? Stable Diffusion:一种深度学习文本到图像生成模型 ? Stable Diffusion是2022年发布的深度学习文本到图像生成模型,主要用于根据文本的描述产生详细图像。它还可以应用于其他任务,如内补绘制、外补绘制,以及在提示词指导下产...
-
DALL·E 2(内含扩散模型介绍)【论文精读】Hierarchical Text-ConditionalImage Generation with CLIP Latents
1官方对模型的介绍 大家好,今天我们就一起来看一下两个月之前 OpenAI 刚放出来的一篇力作。DALL·E 2是 OpenAI 一系列文本图像生成工作的最新一篇。去年 1 月份他们先推出了Dolly,然后在年底的时候又推出了glide。...
-
文生图大模型三部曲:DDPM、LDM、SD 详细讲解!
1、引言 跨模态大模型是指能够在不同感官模态(如视觉、语言、音频等 之间进行信息转换的大规模语言模型。当前图文跨模态大模型主要有: 文生图大模型:如 Stable Diffusion系列、DALL-E系列、Imagen等 图文匹配大模型:如CLI...
-
【小白】一文读懂AIGC模型之Stable Diffusion模型
目录 模型简介 模型结构 VAE变分编码器 VAE结构 VAE模型训练与损失函数 U-Net结构 CLIP Text Encoder 模型工作流程 参考 模型简介 Stable Diffusion(SD)模型是一种基于...
-
AIGC学习笔记——DALL-E2详解+测试
它主要包括三个部分:CLIP,先验模块prior和img decoder。其中CLIP又包含text encoder和img encoder。(在看DALL·E2之前强烈建议先搞懂CLIP模型的训练和运作机制,之前发过CLIP博客) 论文地址:https...
-
腾讯开源视频生成新工具,论文还没发先上代码的那种
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 先上代码再发论文,腾讯新开源文生视频工具火了。 名为MuseV,主打基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成。 老规矩,先看...
-
开源!超越ZoeDepth! DepthFM:快速且精确的单目深度估计!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 0. 这篇文章干了啥? 提出了DepthFM:一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外,DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高...
-
扩散模型攻克算法难题,AGI不远了!谷歌大脑找到迷宫最短路径
「扩散模型」也能攻克算法难题? 图片 一位博士研究人员做了一个有趣的实验,用「离散扩散」寻找用图像表示的迷宫中的最短路径。 图片 作者介绍,每个迷宫都是通过反复添加水平和垂直墙生成的。 其中,起始点和目标点随机选取。 从起点到目标点的最短路径中,随机采样...
-
MuseV官网体验入口 虚拟人AI视频生成软件使用地址
MuseV是一个基于扩散模型的虚拟人视频生成框架,支持无限长度视频生成,采用了新颖的视觉条件并行去噪方案。它提供了预训练的虚拟人视频生成模型,支持Image2Video、Text2Image2Video、Video2Video等功能,兼容Stable Di...