-
stable diffusion模型训练时数据量
文生图模型之Stable Diffusion - 知乎通向AGI之路码字真心不易,求点赞! https://zhuanlan.zhihu.com/p/6424968622022年可谓是 AIGC(AI Generated Content)元年,上半年有文生...
-
AI作画的背后是怎么一步步实现的?一文详解AI作画算法原理+性能评测
前言 “AI作画依赖于多模态预训练,实际上各类作画AI模型早已存在,之所以近期作品质量提升很多,可能是因为以前预训练没有受到重视,还达不到媲美人类的程度,但随着数据量、训练量的增多,最终达到了现在呈现的效果。”远在AI作画还没有爆火之前,深度学习就已经...
-
DALL·E 2 论文阅读笔记
《Hierarchical Text-Conditional Image Generation with CLIP Latents》 Paper: https://cdn.openai.com/papers/dall-e-2.pdf Proj...
-
纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了
人类有两只眼睛来估计视觉环境的深度信息,但机器人和 VR 头社等设备却往往没有这样的「配置」,往往只能靠单个摄像头或单张图像来估计深度。这个任务也被称为单目深度估计(MDE)。 近日,一种可有效利用大规模无标注图像的新 MDE 模型 Depth Any...
-
扩散模型实战(十):Stable Diffusion文本条件生成图像大模型
推荐阅读列表: 扩散模型实战(一):基本原理介绍 扩散模型实战(二):扩散模型的发展 扩散模型实战(三):扩散模型的应用 扩散模型实战(四):从零构建扩散模型 扩散模型实战(五):采样过程 扩散模型实战(六):Diffusers DDPM初探...
-
一个开源的大型语言模型LLaMA论文简单解读,LLaMA: Open and Efficient Foundation Language Models
一个开源的大型语言模型LLaMA论文解读,LLaMA: Open and Efficient Foundation Language Models 返回论文和资料目录 1.导读 LLaMA 是 Meta AI 发布的包含 7...
-
大模型 Dalle2 学习三部曲(一)Latent Diffusion Models学习
引言 Diffusion model大获成功,但是它的短板也很明显,需要大量的计算资源,并且推理速度比较慢。如何才能提升Diffusion model的计算效率。业界有各种各样的改进,无疑Latent Diffusion Models(潜在扩散模...
-
扩散模型 - Stable Diffusion
4 Stable Diffusion Stable Diffusion 是由 Stability AI 开发的开源扩散模型。Stable Diffusion 可以完成多模态任务,包括:文字生成图像(text2img)、图像生成图像(img2img)...
-
Mistral 7B 比Llama 2更好的开源大模型 (三)
Mistral 7B 比Llama 2更好的开源大模型 Mistral 7B是一个70亿参数的语言模型,旨在获得卓越的性能和效率。Mistral 7B在所有评估的基准测试中都优于最好的开放13B模型(Llama 2),在推理、数学和代码生成方面也优于最好的...
-
爆肝整理全网最全最新AI生成算法【Stable Diffusion|Diffusion Model|DallE2|CLIP|VAE|VQGAN】原理解析
1、生成模型 首先回顾一下生成模型要解决的问题: 如上图所示,给定两组数据z和x,其中z服从已知的简单先验分布π(z (通常是高斯分布),x服从复杂的分布p(x (即训练数据代表的分布),现在我们想要找到一个变换函数f,它能建立一种z到x的映射f:z...
-
aigc分享
AIGC技术分享 AIGC概述 AIGC的概念、应用场景和发展历程 https://36kr.com/p/2135547607286144 ppt https://36kr.com/p/2243237713604482 机器学习基础 机器学...
-
AIGC的初识
🌞欢迎来到自然语言处理的世界 🌈博客主页:卿云阁 💌欢迎关注🎉点赞👍收藏⭐️留言📝 🌟本文由卿云阁原创! 📆首发时间:🌹2023年12月26日🌹 ✉️希望可以和大家一起完成进阶之路! 🙏作者水平很有限,如果发现错误,请留言轰炸哦!万分...
-
AIGC专栏2——Stable Diffusion结构解析-以文本生成图像(文生图,txt2img)为例
AIGC专栏2——Stable Diffusion结构解析-以文本生成图像(文生图,txt2img)为例 学习前言 源码下载地址 网络构建 一、什么是Stable Diffusion(SD) 二、Stable Diffusion的组成 三、生...
-
AIGC中的视觉生成文献整理
文章目录 文件夹文献总览 图像生成技术 视频生成技术 Video Generation with Text Condition Video Generation with other Conditions Video Editing 生成模...
-
AIGC的底层核心结构Transformer是如何彻底改变NLP游戏规则的?OJAC近屿智能带你一探究竟
Look!👀我们的大模型商业化落地产品 📖更多AI资讯请👉🏾关注 Free三天集训营助教在线为您火热答疑👩🏼🏫 没有Transformer,就没有NLP的突破,听起来有些夸张,但事实确实如此。什么是Transformer?Transforme...
-
Stable Diffusion1.5网络结构-超详细原创
目录 1 Unet 1.0 介绍 1.1详细整体结构 1.2 缩小版整体结构 1.3 时间步编码 1.4 CrossAttnDownBlock2D 1.4.1 ResnetBlock2D 1.4.2 Transformer2DModel...
-
被OpenAI、Mistral AI带火的MoE是怎么回事?一文贯通专家混合架构部署
选自 HuggingFace 博客 编译:赵阳 专家混合 (MoE) 是 LLM 中常用的一种技术,旨在提高其效率和准确性。这种方法的工作原理是将复杂的任务划分为更小、更易于管理的子任务,每个子任务都由专门的迷你模型或「专家」处理。 早些时候,有人爆料...
-
stable diffusion为什么能用于文本到图像的生成
推荐基于稳定扩散(stable diffusion AI 模型开发的自动纹理工具: DreamTexture.js自动纹理化开发包 - NSDT 稳定扩散获得如此多关注的原因 如果你还没有看过它:稳定扩散是一个文本到图像的生成模型,你可以输入...
-
AIGC、ChatGPT、GPT系列?我的认识
AIGC(AI generated content),新型内容生产方式。AIGC是利用人工智能技术来生成内容,也就是,它可以用输入数据生成相同或不同类型的内容,比如输入文字、生成文字,输入文字、生成图像等。 GPT-3是生成型的预训练变换模型,是...
-
【扩散模型】1、扩散模型 | 到底什么是扩散模型?
文章目录 一、什么是扩散模型 1.1 现有生成模型简介 1.2 扩散模型的理论来源 1.3 扩散模型的使用场景 1.4 扩散模型的基本结构 1.5 马尔可夫过程 二、扩散模型相关定义 2.1 符号和定义 2.2 问题规范化 三、可以提升...
-
最近读的AIGC相关论文思路解读
AIGC之SD可控生成论文阅读记录 提示:本博客是作者本人最近对AIGC领域相关论文调研后,临时记录所用,所有观点都是来自作者本人局限理解,以及个人思考,不代表对。如果你也正好看过相关文章,发现作者的想法和思路有问题,欢迎评论区留言指正! 既然是论...
-
番外篇Diffusion&Stable Diffusion扩散模型与稳定扩散模型
文章目录 Diffusion&Stable Diffusion扩散模型与稳定扩散模型 摘要 Abstract Diffusion Model扩散模型 Forward Diffusion Process正向扩散过程 噪声图像的分布...
-
ICLR'24无图新思路!LaneSegNet:基于车道分段感知的地图学习
写在前面&笔者的个人理解 地图作为自动驾驶系统下游应用的关键信息,通常以车道或中心线表示。然而,现有的地图学习文献主要集中在检测基于几何的车道或感知中心线的拓扑关系。这两种方法都忽略了车道线与中心线的内在关系,即车道线绑定中心线。虽然在一个模型中...
-
WidthFormer:实时自动驾驶!助力基于Transformer的BEV方案量产
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&行业理解 基于BEV的transformer方案今年量产的主要方案,transformer结构和CNN相比,特征提取能力更强,但需要较多的算力,这也是为什么许多车上都是1~2颗orin...
-
如何使用ChatGPT + Midjourney批量生成图片
我们都知道,视觉内容对于一个内容创作者来说非常重要。但是,对于没有设计技能的人来说,制作视觉内容可能是一项很困难的任务。不过,随着人工智能技术的不断进步,我们可以使用一些AI工具来帮助我们创建视觉内容,例如使用ChatGPT和Midjourney批量生成图...
-
AI绘画与多模态原理解析:从CLIP到DALLE1/2、DALLE 3、Stable Diffusion、SDXL Turbo、LCM
前言 终于开写本CV多模态系列的核心主题:stable diffusion相关的了,为何执着于想写这个stable diffusion呢,源于三点 去年stable diffusion和midjourney很火的时候,就想写,因为经常被刷屏,但那会时...
-
AIGC系列之:ControlNet原理及论文解读
《Adding Conditional Control to Text-to-Image Diffusion Models》 目录 1.背景介绍 2.原理详解 2.1 Controlnet 2.2 用于Stable Diffusion的Contr...
-
stable diffusion原理
1、Latent space 隐空间是压缩数据的一个表示。数据压缩的目的是学习数据中较重要的信息。以编码器-解码器网络为例,首先使用全卷积神经网(FCN 络学习图片特征,我们将特征提取中对数据的降维看作一种有损压缩。但是由于解码器需要重建(reconst...
-
昆仑天工SkyWork:更懂中文的AIGC开源模型
昆仑天工SkyWork系列AIGC开源模型,由奇点智源公司研发,在2022年12月发布,覆盖图像、文本、编程等多模态内容生成能力,包括绘画、文章续写、对话、中英翻译、推理、诗词对联、菜谱撰写、合同起草、代码补全等。 昆仑天工SkyWork系列模型...
-
Stability AI发布全新代码模型Stable Code 3B,媲美70亿Code Llama,没GPU也能跑
今天,Stability AI发布了自家在2024年的第一个模型——Stable Code3B。 顾名思义,Stable Code3B专注于代码能力,实际的表现也是非常亮眼。 在仅仅3B参数的规模之下,达到了比肩Code Llama7B的效果。 相...
-
2023年的深度学习入门指南(24) - 处理音频的大模型 OpenAI Whisper
2023年的深度学习入门指南(24 - 处理音频的大模型 OpenAI Whisper 在这一讲之前,我们所用的大模型都是针对文本的。这一讲我们增加一个新的领域,即音频。我们将介绍OpenAI的Whisper模型,它是一个处理音频的大模型。 Wh...
-
Stable Diffusion with Diffusers 学习笔记: 原理+完整pipeline代码
文章目录 01 使用 02 Stable Diffusion 的工作原理 The autoencoder (VAE The U-Net The Text-encoder Latent Diffusion 又快又高效的原因 Stable Di...
-
如何将知识图谱与AIGC结合?京东是这么做的
一、导言 首先介绍一下京东在电商场景下 AIGC 方面的探索。 这是一个商品营销文案自动生成的全景图,自下而上首先是商品的输入信息。输入信息是异构多源的,包括商品的商详页里的图片、文本、商品的标题以及商品的知识图谱。通用的知识图谱是三元组的形式,...
-
DiffIR: Efficient Diffusion Model for Image Restoration 利用扩散模型进行图像重建
一、主要贡献 •我们提出了DiffIR,一种强大、简单、高效的基于扩散模型的的图像修复方法。与图像生成不同的是,输入图像的大部分像素都是给定的。因此,我们利用DM强大的映射能力来估计一个紧凑的IPR(IR Prior Representation,图像修...
-
一文读懂大型语言模型参数高效微调:Prefix Tuning与LLaMA-Adapter
芝士AI吃鱼 在快速发展的人工智能领域中,高效、有效地使用大型语言模型变得日益重要,参数高效微调是这一追求的前沿技术,它允许研究人员和实践者在最小化计算和资源占用的同时,重复使用预训练模型。这还使我们能够在更广泛的硬件范围内训练...
-
使用 Transformers 为多语种语音识别任务微调 Whisper 模型
本文提供了一个使用 Hugging Face 🤗 Transformers 在任意多语种语音识别 (ASR 数据集上微调 Whisper 的分步指南。同时,我们还深入解释了 Whisper 模型、Common Voice 数据集以及微调等理论知识,...
-
Stable Diffusion扩散模型 + Consistency一致性模型
1 GAN到Stable Diffusion的改朝换代 2 从DDPM到Stable Diffusion发展史 2.1 DDPM 扩散过程(正向) 去噪过程(反向) 总结 优化目标 理论推导 代码解析 2.2 Stable Diffu...
-
Stability AI开年首个大模型:专写代码,支持18种编程语言,上下文100K,苹果笔记本离线就能跑
Stability AI开年第一个大模型来了! 名为Stable Code 3B,参数27亿,专为写代码而生。 Stable Code 3B可理解处理18种不同的编程语言,上下文长度100K token。 且它对硬件要求也不高,用MacBook Air...
-
【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting
Lag-Llama: Towards Foundation Models for Time Series Forecasting 摘要 本文提出Lag-Llama,在大量时间序列数据上训练的通用单变量概率时间序列预测模型。模型在分布外泛化能力上取...
-
Stability AI发布全新代码模型Stable Code 3B!媲美70亿Code Llama,没GPU也能跑
今天,Stability AI发布了自家在2024年的第一个模型——Stable Code 3B。 图片 顾名思义,Stable Code 3B专注于代码能力,实际的表现也是非常亮眼。 在仅仅3B参数的规模之下,达到了比肩Code Llama 7B的效果...
-
【AIGC】Controlnet:基于扩散模型的文生图的可控性
前言 controlnet可以让stable diffusion的生图变得可控。 文章连接:https://arxiv.org/pdf/2302.05543.pdf 摘要 冻结了stable diffusion的预训练模型并重用它的预训练...
-
Stable Diffusion模型概述
Stable Diffusion 1. Stable Diffusion能做什么? 2. 扩散模型 2.1 正向扩散 2.2 反向扩散 3. 训练如何进行 3.1 反向扩散 3.2 Stable Diffusion模型 3.3 潜在扩散模...
-
Stability AI发布Stable Code 3B模型,没有GPU也能本地运行
在文生图领域大火的 Stability AI,今天宣布了其 2024 年的第一个新 AI 模型:Stable Code 3B。顾名思义,Stable Code 3B 是一个拥有 30 亿参数的模型,专注于辅助代码任务。 无需专用 GPU 即可在笔记本电...
-
机器人领域首个开源视觉-语言操作大模型,RoboFlamingo框架激发开源VLMs更大潜能
近年来,大模型的研究正在加速推进,它逐渐在各类任务上展现出多模态的理解和时间空间上的推理能力。机器人的各类具身操作任务天然就对语言指令理解、场景感知和时空规划等能力有着很高的要求,这自然引申出一个问题:能不能充分利用大模型能力,将其迁移到机器人领域,直接...
-
深入浅出解析Stable Diffusion完整核心基础知识 | 【算法兵器谱】
Rocky Ding 公众号:WeThinkIn 最新更新: Rocky也一直在更新Stable Diffusion系列的文章内容,包括最新发布的Stable Diffusion XL。Rocky都进行...
-
【stable diffusion原理解读通俗易懂,史诗级万字爆肝长文,喂到你嘴里】
文章目录 一、前言(可跳过) 二、stable diffusion 1.clip 2.diffusion model forward diffusion (前向扩散) 逆向扩散(reverse diffusion) 采样图 阶段小结 3....
-
请查收使用OpenAI的Whisper进行语音识别的攻略
Whisper是一种令人激动的新型语言模型,采用了全新的语音识别方法,即使是低质量的音频,Whisper也能产生高质量的结果,并且对各种声音和语言的适应性极强,无需进行微调。 Whisper是开源的,有一系列可用的模型尺寸,可以作为众多语音转文字应用的有...
-
Stable Diffusion VAE:改善图像质量的原理、选型与使用指南
VAE Stable Diffusion(稳定扩散)是一种用于生成模型的算法,结合了变分自编码器(Variational Autoencoder,VAE)和扩散生成网络(Diffusion Generative Network)的思想。它通过对变分自编码器...
-
扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略
Text-to-image(T2I)扩散模型在生成高清晰度图像方面显示出了卓越的能力,这一成就得益于其在大规模图像-文本对上的预训练。 这引发了一个自然的问题:扩散模型是否可以用于解决视觉感知任务? 近期,来自字节跳动和复旦大学的技术团队提出了一种简单...
-
Stable diffusion 简介
Stable diffusion 是 CompVis、Stability AI、LAION、Runway 等公司研发的一个文生图模型,将 AI 图像生成提高到了全新高度,其效果和影响不亚于 Open AI 发布 ChatGPT。Stable diffusi...