-
AIGC生成图像检测
AI生成图像技术的进展与影响 技术进步: 视觉质量与效率提升:近年来,AI生成图像在视觉质量、语义复杂度及运行时间效率上均实现了显著飞跃。 成本降低与普及:生成虚假图像所需的专业知识和成本大幅下降,促使在线图像生成平台(如Midjourney、DAL...
-
【AIGC】MimicMotion:姿态引导的高质量人体运动视频生成技术
资源 论文:https://arxiv.org/pdf/2406.19680 github:https://github.com/Tencent/MimicMotion comfyui:https://github.com/kijai/ComfyUI...
-
【AI绘画】零基础入门ComfyUI(二)快手可图Kolors大模型
大家好,我是写编程的木木。 7月6日,快手在世界人工智能大会(WAIC)上宣布,快手旗下的文生图大模型可图(Kolors)将全面开源。可图(Kolors)支持中英文双语,生成效果比肩 Midjourney-v6水平,支持长达256字符的文本输入,具备英文...
-
重磅!Stable Diffusion创始团队推出FLUX.1:一夜颠覆MJ v6,DALL·E 3,SD3!
前言 Stable Diffusion 大家已经很熟悉了,是由 CompVis 团队开发的,这是一个隶属于德国慕尼黑大学的计算机视觉研究小组。该团队由多个研究人员和开发者组成,包括 Patrick Esser、Robin Rombach 和 Bjö...
-
CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:实时4K分辨率4D视图合成
文章链接:https://arxiv.org/pdf/2310.11448 git链接: https://zju3dv.github.io/4k4d/ 本文旨在实现动态3D场景在4K分辨率下的高保真和实时视图合成。最近,一些动态视图合成方法在渲染质量方面...
-
【国产AI绘图】快手把“可图”大模型开源了,这是一款支持中文的SDXL模型
Kolors 是由 Kuaishou Kolors 团队(快手可图)开发的基于潜在扩散的大规模文本到图像生成模型。经过数十亿对文本图像的训练,Kolors 在视觉质量、复杂语义的准确性以及中英文字符的文本渲染方面,与开源和专有模型相比都具有显著优势。此外,...
-
AIGC-视频生成-AnimateDiff-基于T2I模型的动态生成论文详细解读
AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning 代码:https://github.com/guoyww/a...
-
AI绘画 “最强”黑马FLUX!免费开源试玩!多版本体验大合集!轻松本地部署,超越SD3!
大家好,我是程序员晓晓 最近,AI绘画界发生了大事,Stable Diffusion原班人马官宣创业新公司! 3月宣布从Stability AI出走的Robin Rombach,就是Stable Diffusion的两个主要作者之一,和十来个原公司小伙...
-
Datawhale AI夏令营第四期AIGC方向Task2学习笔记
Kolors(可图)模型 Kolors是由快手团队开发的大规模文本到图像生成模型(可图 · 模型库 (modelscope.cn )根据链接的文章内容,Kolors在视觉质量、复杂语义准确性以及中英文字符的文本渲染方面,显著优于开源和专有...
-
SD原班人马打造最强图片生成模型Flux,群友们直呼再也不用抽盲盒了,Midjourney实测
最近晓薇的AI群都在晒Flux的图片,因此今天我打算分享一下Flux工具的使用体验,用过的都惊叹抽卡效率大大提升了! 概述 近期,黑森林实验室(Black Forest Lab)重磅推出了全新图像生成模型FLUX.1。 三种版本满足不同需求:性能强...
-
【Stable Diffusion】最强模型——Flux推荐和下载
前言 Flux是一个由黑森林实验室(Black Forest Lab)推出的模型,开发人员由Stable Diffusion前离职人员构成。做到了很多SD和MJ都做不到或者很难做到的事情。其特点主要如下: 参数规模大****:官方号称模型有12B...
-
MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions
Paper name MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions Paper Reading Note Paper URL: ht...
-
国产可图大模型:厚积薄发,GLM3加持质的飞跃,ComfyUI最全指南与SD3综合评比孰更强?
🌹大家好!我是安琪!!! Kolors大模型简 就在上周末,国内大厂快手开源了可图大模型文生图模型,这是由快手可图团队开发的基于潜在扩散的大规模文本到图像生成模型。 • Kolors 是在数10亿图文对下进行训练, • 在 视觉质量、复杂语...
-
Flux:Midjourney的新图像模型挑战者
--->更多内容,请移步“鲁班秘笈”!!<--- Black Forest Labs是一家由前Stability.ai开发人员创立的AI初创公司,旨在为图像和视频创建尖端的生成式 AI 模型。这家初创公司声称,其第一个模型系列Flux.1为文...
-
自回归模型胜过扩散模型:用于可扩展图像生成的 Llama
📜 文献卡 Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation 作者: Peize Sun; Yi Jiang; Shoufa Chen; Shil...
-
Llama也能做图像生成?文生图模型已开源
导读 基于next-token prediction的图像生成方法首次在ImageNet benchmark超越了LDM, DiT等扩散模型,证明了最原始的自回归模型架构同样可以实现极具竞争力的图像生成性能。 Llama也能做图像生成?文生图模型已开源...
-
【AIGC-图片生成视频系列-7】MoonShot:实现多模态条件下的可控视频生成和编辑
目录 一. 贡献概述 二. 方法详解编辑 三. Zero-Shot主题定制视频生成 四. 文本到视频生成 五. 直接使用图像ControlNet 六. 图像动画比较 七. 视频编辑 八. 针对视频生成中多模态 Cross-Attn的消融实...
-
AI绘画SD入门教程:后期处理图片高清放大
大家好,我是程序员晓晓 在上一篇入门教程中,我们学会了图生图的基础用法以及参数设置。这一篇我们主要讲如何利用放大算法(Super-Resolution)来显著提升图片的分辨率,同时保持甚至增强图像的细节和清晰度。这些功能可以快速帮助你提高图片分辨率和修复...
-
为Stable Diffusion模型瘦身并达到SOTA!LAPTOP-Diff:剪枝蒸馏新高度(OPPO)
文章链接:https://arxiv.org/pdf/2404.11098 在AIGC时代,对低成本甚至设备端应用扩散模型的需求日益增加。在压缩Stable Diffusion模型(SDM)方面,提出了几种方法,其中大多数利用手工设计的层移除方法来获得更...
-
Stable Diffusion XL优化终极指南
如何在自己的显卡上获得SDXL的最佳质量和性能,以及如何选择适当的优化方法和工具,这一让GenAI用户倍感困惑的问题,业内一直没有一份清晰而详尽的评测报告可供参考。直到全栈开发者Félix San出手。 在本文中,Félix介绍了相关...
-
世界模型也扩散!训练出的智能体竟然不错
世界模型提供了一种以安全且样本高效的方式训练强化学习智能体的方法。近期,世界模型主要对离散潜在变量序列进行操作来模拟环境动态。 然而,这种压缩为紧凑离散表征的方式可能会忽略对强化学习很重要的视觉细节。另一方面,扩散模型已成为图像生成的主要方法,对离散潜在...
-
SIGGRAPH'24 | 太逆天了!利用分层3D GS,实时渲染超大规模场景!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 近年来,新视角合成取得了重大进展,3D Gaussian splatting提供了出色的视觉质量、快速训练和实时渲染。然而,训练和渲染所需的资源不可避免地限制了可以以良好视觉质量表示的场景大小。本文引入...
-
硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎
Sora刚发布后没多久,火眼金睛的网友们就发现了不少bug,比如模型对物理世界知之甚少,小狗在走路的时候,两条前腿就出现了交错问题,让人非常出戏。 对于生成视频的真实感来说,物体的交互非常重要,但目前来说,合成真实3D物体在交互中的动态行为仍然非常困难。...
-
史上最大重建25km²!NeRF-XL:真正有效利用多卡联合训练!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:NeRF-XL: Scaling NeRFs with Multiple GPUs 论文链接:https://research.nvidia.com/labs/toronto-ai/nerfx...
-
Gaussian-LIC:首个多传感器融合3DGS-SLAM系统(浙大&TUM)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 多传感器与3DGS的结合 NeRF-based SLAM的隐式神经表示法需要基于3D空间中的采样进行计算密集型的体积渲染,从而削弱了SLAM应用所必需的实时能力。3DGS以其快速的渲染速度和优越的视觉...
-
模糊图像重建重大进展!DeblurGS:相机位姿不准也能极致渲染!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 尽管在从运动模糊图像中重建清晰的3D场景方面取得了重大进展,但向现实世界应用的过渡仍然具有挑战性。主要障碍源于严重的模糊,这导致通过“Structure-from-M...
-
AI绘画专栏之Comfyui之AnimateDiffLCM更快效果更佳工作流分享
AnimateLCM能够在很少的步骤中生成高质量的视频。相比直接在原始视频数据集上应用一致性学习,该项目提出了一种解耦的一致性学习策略,分别对图像生成的基础知识和运动生成的基础知识进行提炼。这种策略提高了训练效率并提升了生成视频的视觉质量。 那么关于两个...
-
AI新工具(20240203) 文心一言APP数字分身;HuggingChat Assistants等
文心一言APP数字分身-一键生成专属数字分身 文心一言数字分身是一项新功能,用户只需一张照片和录制三句语音,就能创建一个专属的数字分身。这个数字分身还支持个性化定义名称、声音、MBTI性格等,用户可以选择是否公开自己的数字分身。这个功能的上线大大缩短...
-
纯文本模型训出「视觉」表征!MIT最新研究:语言模型用代码就能作画
只会「看书」的大语言模型,有现实世界的视觉感知力吗?通过对字符串之间的关系进行建模,关于视觉世界,语言模型到底能学会什么? 最近,麻省理工学院计算机科学与人工智能实验室(MIT CSAIL)的研究人员对语言模型的视觉能力进行了系统的评估,从简单形状、物体...
-
重塑3D生成核心理论:VAST、港大、清华用「零」训练数据生成了3D模型
无需任何训练数据,只需对着模型描述一句话,如「一个做作业的香蕉人」: 或是「一只戴着 VR 眼镜的猫」: 就能生成符合描述的带有高质量纹理贴图的 3D 场景。不仅如此,还能对已有的 3D 模型进行精细化贴图。 这是港大与清华大学联合 3D 生成明星...
-
一句话让小姐姐为我换了N套衣服,谷歌卷出视频生成新高度,网友:竞赛加码
谷歌一出手,又把AI视频生成卷上了新高度。 一句话生成视频,现在在名为Lumiere的AI操刀下,可以是酱婶的: △“阳光明媚,帆船在湖中航行” 如此一致性和质量,再次点燃了网友们对AI视频生成的热情:谷歌加入战局,又有好戏可看了。 不止是文生视频,...
-
拳打Gen-2脚踢Pika,谷歌爆肝7个月祭出AI视频大模型,首提时空架构,时长史诗级延长
爆肝7个月,谷歌祭出了AI视频大模型Lumiere,直接改变了游戏规则!全新架构让视频时长和一致性全面飞升,时长直接碾压Gen-2和Pika。 AI视频赛道上,谷歌又再次放出王炸级更新! 这个名为Google Lumiere的模型,是个大规模视频扩散模...
-
拳打Gen-2脚踢Pika,谷歌爆肝7个月祭出AI视频大模型!首提时空架构,时长史诗级延长
AI视频赛道上,谷歌又再次放出王炸级更新! 这个名为Google Lumiere的模型,是个大规模视频扩散模型,彻底改变了AI视频的游戏规则。 跟其他模型不同,Lumiere凭借最先进的时空U-Net架构,在一次一致的通道中生成整个视频。 具体来说,现有...
-
【AIGC】AnimateDiff:无需定制化微调的动画化个性化的文生图模型
前言 Animatediff是一个有效的框架将文本到图像模型扩展到动画生成器中,无需针对特定模型进行调整。只要在大型视频数据集中学习到运动先验知识。AnimateDiff就可以插入到个性化的文生图模型中,与Civitai和Huggingface的文生图...
-
AI绘画权益纠纷:你的创作是否触碰了版权底线?
最近,北京互联网法院就一起人工智能生成图片(AI绘画图片)的著作权侵权案进行了首次审理并做出了判决。这是中国首例牵涉到“AI文生图”著作权的案件,庭审过程在多个平台进行直播,吸引了众多网友,同时引发了对于AI生成内容与著作权之间关系的广泛讨论。 那么近年...
-
AIGC之论文笔记DALL-E
文章目录 Zero-Shot Text-to-Image Generation 一. 简介 二. 方法 2.1. 第一阶段:Learning the visual codebook 2.1.1 回顾VQ-VAE 2.1.2...
-
AI视野:Midjourney V6史诗级升级;ChatGPT新增存档聊天记录功能;阿里DreaMoving开源;百度千帆AppBuilder开放
???AI新鲜事 Midjourney V6史诗级升级,网友惊呼太逼真! 网友在Midjourney V6第二次社区评价中惊叹其逼真神图,光影效果出众,上线倒计时,可能在今明两天内发布。 ChatGPT新增存档聊天记录功能 12月21日,OpenAI在...
-
一张图or文字生成无限3D世界!斯坦福吴佳俊团队新作,让网友直呼“难以置信”
斯坦福吴佳俊团队打造AI版“爱丽丝梦游仙境”巨作! 仅用一张图or一段文字就能沿相机轨迹生成无限连贯3D场景: 只需输入一段古诗词,诗中场景立刻映入眼帘: 而且还是来回式的,可以再倒回去的那种: 同一起点可以进入不同场景: 真实场景也可以,其中的...
-
让3D编辑像PS一样简单,新算法GaussianEditor在几分钟内完成3D场景增删改
3D 编辑在游戏和虚拟现实等领域中发挥着至关重要的作用,然而之前的 3D 编辑苦于耗时间长以及可控性差等问题,很难应用到实际场景。近日,南洋理工大学联合清华和商汤提出了一种全新的 3D 编辑算法 GaussianEditor,首次实现了在 2-7 分钟完...
-
Stable Diffusion - 真人照片的高清修复 (StableSR + GFPGAN) 最佳实践
欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/132032216 GFPGAN (Generative Facial...
-
AI视频后期制作神器ProPainter 一键即可完成视频抠图
最近,出现了一种新的视频修复技术,叫做ProPainter,它可以用画家风格的笔触来填补视频中的缺失区域。 ProPainter是一个基于深度学习的端到端的网络,它由两个模块组成:Recurrent Flow Completion Network和Pain...