-
【AIGC数字人】EchoMimic:基于可编辑关键点条件的类人音频驱动肖像动画
GitHub:https://github.com/BadToBest/EchoMimic 论文: https://arxiv.org/pdf/2407.08136 comfyui: https://github.com/smthemex/ComfyU...
-
【AIGC从零开始】AIGC小白学习心得第二讲:3D生成模型
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一、Stable Video 3D(sv3d) 二、TripoSR 三、LRM系列 1.LRM 2.GS-LRM 3.OpenLRM 四、CRM 五...
-
【AutoencoderKL】基于stable-diffusion-v1.4的vae对图像重构
模型地址:https://huggingface.co/CompVis/stable-diffusion-v1-4/tree/main/vae 主要参考:Using-Stable-Diffusion-VAE-to-encode-satellite-imag...
-
LLaMA3技术报告解读
前言 LLaMA系列算法是Meta公司发布的开源大模型。近期Meta公司又发布了LLaMA 3.1系列的模型,在这一系列模型中参数量最大的高达405B,上下文窗口多达128K个token。同时对模型进行了广泛的实证评估,发现在很多任务中,LLaMA 3...
-
ECCV2024 | 小成本微调CLIP大模型!CLAP开源来袭:零样本和少样本训练有救了!
论文链接:https://arxiv.org/pdf/2311.16445 代码链接:https://github.com/YichaoCai1/CLAP 亮点直击 解耦潜在内容和风格因素:本文提出了一种通过对比学习和数据增强,从因果角度微...
-
The Llama 3 Herd of Models.Llama 3 模型第1,2,3部分全文
现代人工智能(AI 系统是由基础模型驱动的。本文提出了一套新的基础模型,称为Llama 3。它是一组语言模型,支持多语言、编码、推理和工具使用。我们最大的模型是一个密集的Transformer,具有405B个参数和多达128K个tokens...
-
【Stable Diffusion】ComfyUI-插件-生成透明通道素材!
前言 哈喽大家好,刚接触SD生成素材的时候,就想过能不能一步到位,直接生成带透明通道的图层,这期分享下ComfyUI中的这种插件,开始之前先来感受下 透明通道素材 1、安装插件 将zip的压缩包解压到以下路径 ···\ComfyUI\cus...
-
一文速览Llama 3.1——对其92页paper的全面细致解读:涵盖语言、视觉、语音的架构、原理
前言 按我原本的计划,我是依次写这些文章:解读mamba2、解读open-television、我司7方面review微调gemma2,再接下来是TTT、nature审稿微调、序列并行、Flash Attention3.. 然TTT还没写完,7.23日...
-
LLama 405B 技术报告解读
LLama 405B 技术报告解读 果然传的消息都是真的,meta在24号凌晨发布了llama 3的405B版本,这次还是做一个技术报告解读。 值得一提的是,在技术报告的开头,meta特意强调了一个 Managing complexity,大意是管控...
-
Stable Diffusion最好用的高清修复插件
虽说大部分N家显卡都能跑得起来Stable Diffusion,但想要画尺寸更大、更清晰的图片,需要更大的显存。 以12G显存的3060为例,2048大概是单张尺寸的上限,如果画更大的尺寸,大概率会爆显存。 大多数情况下,都是画512小尺寸的图,生成效...
-
天才程序员周弈帆 | Stable Diffusion 解读(一):回顾早期工作
本文来源公众号“天才程序员周弈帆”,仅用于学术分享,侵权删,干货满满。 原文链接:Stable Diffusion 解读(一):回顾早期工作 在2022年的这波AI绘画浪潮中,Stable Diffusion无疑是最受欢迎的图像生成模型。究其原因,第一...
-
02:从文生图初窥Stable Diffusion,一键玩转AI绘画
前言 Stable Diffusion是一个什么架构呢,或者说是由哪些部分构成,各自发挥着怎么样的作用。我们就先从文生图开始探索 文生图 我们打开Stable Diffusion的webui,然后选择Stable Diffusion模型,然后选择...
-
Stable diffusion文生图大模型——隐扩散模型原理解析
1、前言 本篇文章,我们将讲这些年非常流行的文生图大模型——Stable Diffusion。该模型也不难,甚至说很简单。创新点也相对较少,如果你学会了我以前的文章讲过的模型,学习这个也自然水到渠成! 参考论文:High-Resolution Ima...
-
【AIGC】PULID:对比对齐的ID定制化技术
论文链接:https://arxiv.org/pdf/2404.16022 github:https://github.com/ToTheBeginning/PuLID comfyui节点:GitHub - cubiq/PuLID_ComfyUI: P...
-
通俗易懂的Stable Diffusion模型结构介绍
目录 SD的发展历程 SD 模型的网络结构 ClipText 文本编码器 文本向量输入Unet VAE模型 总结图 SD的发展历程 Stab...
-
港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体
当前,多模态大模型 (MLLM)在多项视觉任务上展现出了强大的认知理解能力。 然而大部分多模态大模型局限于单向的图像理解,难以将理解的内容映射回图像上。 比如,模型能轻易说出图中有哪些物体,但无法将物体在图中准确标识出来。 定位能力的缺失直接限制了多模态...
-
Meta发布类GPT-4o多模态模型Chameleon
Meta最近发布了一个名为Chameleon的多模态模型,它在多模态模型发展中设立了新的标杆。Chameleon是一个早期融合的基于token的混合模态模型家族,能够理解并生成任意顺序的图像和文本。它通过一个统一的Transformer架构,使用文本、图像...
-
超越BEVFormer!CR3DT:RV融合助力3D检测&跟踪新SOTA(ETH)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 本文介绍了一种用于3D目标检测和多目标跟踪的相机-毫米波雷达融合方法(CR3DT)。基于激光雷达的方法已经为这一领域奠定了一个高标准,但是其高算力、高成本的缺陷制约了...
-
多模态大模型有了统一分割框架,华科PSALM多任务登顶,模型代码全开源
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 最近,多模态大模型(LMM)取得了一系列引人注目的成就,特别是在视觉 - 语言任务上的表现令人瞩目。它们的成功不仅展现了多模态大模型在各...
-
AIGC学习笔记——DALL-E2详解+测试
它主要包括三个部分:CLIP,先验模块prior和img decoder。其中CLIP又包含text encoder和img encoder。(在看DALL·E2之前强烈建议先搞懂CLIP模型的训练和运作机制,之前发过CLIP博客) 论文地址:https...
-
【没有哪个港口是永远的停留~论文解读】stable diffusion 总结 代码&推导&网络结构
了解整个流程: 【第一部分】输入图像 x (W*H*3的RGB图像) 【第一部分】x 经过编码器 生成 (latent 空间的表示 h*w*c (具体设置多少有实验 【第二部分】 逐步加噪得到 ,和噪声标签 【第二部分】由 Unet( )...
-
苹果研发多模态AI,这是研究人员迄今发现的结果
译者 | 布加迪 审校 | 重楼 如果我告诉你,在最近热议的多模态AI背后,苹果正在悄然酝酿一场革命,你会作何感想?苹果的一群研究人员一直在系统地研究如何构建功能最强大的多模态模型,揭露了质疑传统智慧的重要见解。现在他们让我们有机会一窥底层的细节。 他...
-
剑桥团队开源:赋能多模态大模型RAG应用,首个预训练通用多模态后期交互知识检索器
论文链接:https://arxiv.org/abs/2402.08327 DEMO 链接:https://u60544-b8d4-53eaa55d.westx.seetacloud.com:8443/ 项目主页链接:https://preflm...
-
CMU朱俊彦、Adobe新作:512x512图像推理,A100只用0.11秒
简笔素描一键变身多风格画作,还能添加额外的描述,这在 CMU、Adobe 联合推出的一项研究中实现了。 作者之一为 CMU 助理教授朱俊彦,其团队在 ICCV 2021 会议上发表过一项类似的研究:仅仅使用一个或数个手绘草图,即可以自定义一个现成的 GA...
-
一统所有目标感知任务,华科&字节提出目标感知基础模型GLEE
近年来,LLM 已经一统所有文本任务,展现了基础模型的强大潜力。一些视觉基础模型如 CLIP 在多模态理解任务上同样展现出了强大的泛化能力,其统一的视觉语言空间带动了一系列多模态理解、生成、开放词表等任务的发展。然而针对更细粒度的目标级别的感知任务,目前...
-
【AI绘画】2024最新Stable Diffusion 超详细讲解!!必收藏!!!!
手把手教你入门绘图超强的AI绘画,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新保姆级教程资料包 (文末可获取) Stable Diffusion 超详细讲解 这篇文章是 《Stable Diffusion原理详解》的后续,在...
-
AI绘画专栏之 提升40% 4步搞定StableCascadeComfyui工作流 不再报错
上一期我们提到了Stability更新的Cascade模型,这个模型在图像质量上对比SDXL提升了40%的性能,现已官方版本支持了Comfyui的工作流,让我们4步搞定它吧 StableCascade 链接:https://pan.quark.cn...
-
淘宝人生2的AIGC技术应用——虚拟人写真算法技术方案
近几个月,随着基于Stable Diffusion的相关技术发展,基于参考图的角色定制化技术[1,2, 3, 4, 7]受到相关行业以及学者的广泛关注。其中,人像定制化是指:给定任务角色(参考图),通过提示词控制生成多样新的图像,并且图像...
-
苹果大模型MM1入场:参数达到300亿 超半数作者是华人
苹果公司最新发布了一款名为MM1的大型多模态基础模型,拥有300亿参数,采用了MoE架构,并且超过一半的作者是华人。该模型在多模态领域具有重要意义,可能预示着苹果未来推出与此相关的产品。 今年以来,苹果明显加大了对生成式人工智能(GenAI)领域的投入,这...
-
苹果大模型MM1杀入场:300亿参数、多模态、MoE架构,超半数作者是华人
今年以来,苹果显然已经加大了对生成式人工智能(GenAI)的重视和投入。此前在 2024 苹果股东大会上,苹果 CEO 蒂姆・库克表示,今年将在 GenAI 领域实现重大进展。此外,苹果宣布放弃 10 年之久的造车项目之后,一部分造车团队成员也开始转向...
-
AIGC学习笔记——CLIP详解加推理
clip论文地址:https://arxiv.org/pdf/2103.00020.pdf clip代码地址:https://github.com/openai/CLIP 小辉问:能不能解释一下zero-shot? 小G答:零次学习(Zero...
-
stable diffusion 原理是什么?
“ 这篇文章主要介绍了Stable Diffusion,这是一种用于AI绘画的算法,它是由CompVis和Runway团队在2021年12月提出的“潜在扩散模型”(LDM/Latent Diffusion Model)的变体,基于201...
-
Stable Diffusion原理解析-inpaint修复图片
文章目录 一、背景知识 (一)inpaint概念 (二)图生图(img2img)任务 二、Stable Diffusion中inpaint的两种实现形式 (一)开源的inpaint模型:这种方式必须基于一个已经训练好的unet模型 (二)...
-
VPR 2024 满分论文!Meta提出EfficientSAM:快速分割一切!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 EfficientSAM 这篇工作以5/5/5满分收录于CVPR 2024!作者在某社交媒体上分享了该结果,如下图所示: LeCun 图灵奖得主也强烈推荐了该工作! 在最近的一项研究中,Meta...
-
【AIGC】Stable Diffusion的ControlNet参数入门
Stable Diffusion 中的 ControlNet 是一种用于控制图像生成过程的技术,它可以指导模型生成特定风格、内容或属性的图像。下面是关于 ControlNet 的界面参数的详细解释: 低显存模式 是一种在深度学习任务中用于处理显存...
-
EfficientViT-SAM:精度不变原地起飞!
作者提出了EfficientViT-SAM,这是一系列加速的SAM模型。在保留SAM轻量级的提示编码器和 Mask 解码器的同时,作者用EfficientViT替换了沉重的图像编码器。在训练方面,首先从SAM-ViT-H图像编码器向EfficientV...
-
最新的AIGC相关技术更新
1.腾讯发布PhotoMaker 《PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding》 作者机构:南开大学&腾讯 PCG ARC 实验室&东京...
-
图像生成与修复:AI绘画的新时代
1.背景介绍 图像生成与修复是一种非常重要的计算机视觉任务,它可以帮助我们创建新的图像,并修复损坏或不完整的图像。随着人工智能技术的发展,图像生成与修复的能力也在不断提高,使得AI绘画成为了一个热门的研究领域。 在本文中,我们将讨论图像生成与...
-
AIGC内容分享(四十四):[AIGC服务] 视频生成 | “群魔乱舞“
目录 骨架驱动的人形动画生成 原理简介 应用前景 骨架驱动的人形动画生成 输入 人脸图像+视频动画 或者 文本描述 输出 视频...
-
零基础看懂免费开源的Stable Diffusion
文章目录 前言 Diffusion模型 推理过程 训练过程 Stable Diffusion模型 参考 前言 前面一篇文章主要讲了扩散模型的理论基础,还没看过上篇的小伙伴可以点击查看:DDPM理论基础。这篇我们主要讲一下一经推...
-
AI绘画Stable Diffusion原理之扩散模型DDPM
前言 传送门: stable diffusion:Git|论文 stable-diffusion-webui:Git Google Colab Notebook部署stable-diffusion-webui:Git kaggle...
-
【AIGC-图片生成视频系列-6】SSR-Encoder:用于主题驱动生成的通用编码器
目录 一. 贡献概述 二. 方法详解 a 训练阶段 b 推理生成阶段: 三. 综合结果 四. 注意力可视化 五. 选择性主题驱动图像生成 六. 人体图像生成 七. 可推广到视频生成模型 八. 论文 九. 个人思考 稳定扩散(S...
-
Segment Anything论文翻译,SAM模型,SAM论文,SAM论文翻译;一个用于图像分割的新任务、模型和数据集;SA-1B数据集
【论文翻译】- Segment Anything / Model / SAM论文 论文链接: https://arxiv.org/pdf/2304.02643.pdf https://ai.facebook.com/research/publica...
-
【多模态】13、Vision-Language 模型在视觉任务中的调研
文章目录 一、简介 二、基础知识 2.1 视觉任务的训练策略 2.2 VLM 基础 2.2.1 网络结构 2.2.2 预训练目标函数 2.2.3 评估和下游任务 2.3 数据集 三、迁移学习 3.1 使用 prompt tunin...
-
AI绘画stability工具大全
Stability AI 公司的关于AI绘画工具集合,这家公司从Stable Diffusion商业出来,具有能浓厚社区文化,凡事研究AI绘画都会关注这家公司! Stability AI 的使命是让AI对所有人开放和有益。 本文基于Stable Dif...
-
CES 2024的亮点仅仅聚焦AI深度赋能和产业创新吗?| DALL-E 3、Stable Diffusion等20+ 图像生成模型综述
随着科技飞速发展,CES(国际消费电子展)已然成为全球科技产业的风向标,每年的CES大会都是业界瞩目的盛事。回顾2024年CES大会,不难发现其亮点纷呈,其中以人工智能的深度赋能为最引人注目之处。AI技术的深入应用成为CES大会上的一大亮点,各大厂商纷纷展...
-
【AI绘画】stable diffusion原理解读,通俗易懂,直接喂到你嘴里!!!
手把手教你入门绘图超强的AI绘画,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新保姆级教程资料包 (文末可获取) 文章目录 一、前言(可跳过) 二、stable diffusion 1.clip 2...
-
AIGC面经大全(持续更新)
目录 DDPM算法原理部分: DDIM算法原理部分: ⾼阶采样⽅案: 特征编码篇: Stable Diffusion篇: SDXL篇: ⼤模型微调篇: 控制模型篇: 适配器篇: DDPM算法原理部分: 简述DDP...
-
DALL-E 系列:AI绘画背后的惊人真相!!【1个离奇内幕、3个意想不到、5大秘密揭示】
DALL-E 系列:AI绘图原理,根据用户给出的描述,生成与描述相匹配的图像 DALL-E 1 dVAE Transformer DALL-E 2 CLIP 先验 prior decoder(image) DALL-E 3...
-
Stable Diffusion(SD)核心基础知识——(文生图、图生图)
文章目录 一、Stable Diffusion核心基础原理 (一)Stable Diffusion模型工作流程 (二)Stable Diffusion模型核心基础原理 (三)Stable Diffusion的训练过程 (四)其他主流生成式模型...