-
【前沿技术】扩散模型Stable Diffusion原理与应用
前言 久章智能 Stable Diffusion是一种基于扩散模型(Diffusion Models)的生成技术,近年来在图像生成和其他生成任务中取得了显著的进展。该技术以其高质量的生成效果、稳定的训练过程和广泛的应用前景,迅速在学术界和工业界引起了...
-
【HuggingFace Transformers】LlamaModel源码解析
LlamaModel源码解析 1. LlamaModel 介绍 2. LlamaModel类 源码解析 3. 4维因果注意力掩码生成 1. LlamaModel 介绍 LlamaModel 是一个基于 Transformer 架构...
-
每日AIGC最新进展(55):清华大学提出Pose引导视频生成模型、佐治亚理工学院提出消除扩散模型中的偏见影响、卡耐基梅隆大学提出多物体控制视频生成模型
Diffusion Models专栏文章汇总:入门与实战 GradBias: Unveiling Word Influence on Bias in Text-to-Image Generative Models 在这项研究中,我们介绍了一个名为G...
-
LORA模型在Stable Diffusion中的注意力机制优化
LORA模型在Stable Diffusion中的注意力机制优化 引言 1.1 Stable Diffusion在生成模型领域的地位和作用 1.2 介绍LORA模型及其在微调预训练模型时的效率和灵活性 1.3 强调注意力机制在LORA模型优化...
-
Stable Diffusion 的 `/sdapi/v1/img2img` 接口参数定义
{ "prompt": "", "negative_prompt": "", "styles": [ "string" ], "seed": -1, "subseed": -1, "subseed_strengt...
-
“Datawhale X 魔搭” AI夏令营第四期:AIGC方向——Task2&Task3
背景介绍 AIGC技术 AIGC(AI-Generated Content 是指基于生成对抗网络、大型预训练模型等人工智能的技术方法,通过已有数据的学习和识别,以适当的泛化能力生成相关内容的技术。例如,通过输入关键词、描述或样本...
-
stable diffusion--小白学习步骤
1.看一下Unet网络的讲解_哔哩哔哩_bilibili,了解Unet网络 2.看一下【生成式AI】Diffusion Model 原理剖析 (1/4 _哔哩哔哩_bilibili,起码要看前3/6个视频 3.看一下超详细的扩散模型(Diffusion...
-
MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions
Paper name MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions Paper Reading Note Paper URL: ht...
-
Datawhale X 魔塔AI夏令营 ——从零入门AI生图原理&实践_task 1
一. 基础知识 1.1 文生图发展历史 1.2 文生图基础知识 文生图主要以SD系列基础模型为主,以及在其基础上微调的lora模型和人物基础模型等。 1.2.1 文生图流程图 1. 输入提示词 ...
-
微调(一)
微调有两种办法, 一是模型全部参数的微调,二是少量参数高效的微调。前者由于参数多,需要的GPU多,并且全参数微调可能把模型带偏,后者只需要微调少量参数,需要的GPU少,还可能达到不错的效果,成为大家研究的重点,取了个专有名词Parameter-Effic...
-
Chameleon:Meta推出的图文混合多模态开源模型
目录 引言 一、Chameleon模型概述 1、早期融合和基于token的混合模态模型 1)早期融合的优势 2)基于token的方法 2、端到端训练 二、技术挑战与解决方案 1、优化稳定性问题 2、扩展性问题 3、架构创新 4、训练技...
-
Llama 8B搜索100次超越GPT-4o!推理+搜索即可提升性能,新「Scaling Law」诞生?
【新智元导读】最近的论文表明,LLM等生成模型可以通过搜索来扩展,并实现非常显著的性能提升。另一个复现实验也发现,让参数量仅8B的Llama3.1模型搜索100次,即可在Python代码生成任务上达到GPT-4o同等水平。 强化学习先驱、加拿大阿尔伯塔大学...
-
清华唐杰团队新作:一口气生成2万字,大模型开卷长输出
一口气生成2万字,大模型输出也卷起来了! 清华&智谱AI最新研究,成功让GLM-4、Llama-3.1输出长度都暴增。 相同问题下,输出结果直接从1800字增加到7800字,翻4倍。 要知道,目前大模型的生成长度普遍在2k以下。这对于内容创作、问...
-
Stable Diffusion WebUI从入门到精通——提示词篇
前言 === 第六部分:提示词(Prompt 基本概念 在使用 AI 生成图像或进行自然语言处理任务时,提示词(prompts)是关键的工具。通过正确使用提示词,用户可以引导模型生成所需的内容。本部分将介绍提示词的基本概念、语法以及不同类型提示...
-
AIGC与知识图谱融合的前沿探索与应用实践
1. 背景介绍 1.1 AIGC的兴起与知识图谱的价值 近年来,人工智能生成内容(AIGC)技术取得了显著的进展,在文本、图像、音频、视频等领域展现出强大的创造能力。AIGC 的核心在于利用机器学习算法学习和模仿人类的创作过程,从而生成高质量、高创意的...
-
WD1.4标签器:Stable Diffusion的提示词反推神器
引言 在AI绘画领域,Stable Diffusion(SD)因其强大的生成能力而备受关注。然而,如何精准地控制和优化生成效果,常常是许多用户面临的问题。今天,我们将详细介绍一款实用的插件——WD1.4标签器,它可以帮助我们反推出图片背后的提示词,从而...
-
AIGC——ControlNet模型的原理
简介 ControlNet旨在控制预训练的大型扩散模型,以支持额外的输入条件。ControlNet能够以端到端的方式学习特定任务的条件,即使在训练数据集很小的情况下(<50k),也能保持稳健性。此外,训练ControlNet的速度与微调扩散模型一...
-
每日AIGC最新进展(51):昆仑万维震撼发布16B DiT-MoE图像生成模型、东北大学提出使用去噪神经权重进行高效训练、美团提出视频扩散模型量化方法
Diffusion Models专栏文章汇总:入门与实战 Scaling Diffusion Transformers to 16 Billion Parameters 本文介绍了DiT-MoE,一种可扩展的稀疏变分Transformer模型,它在...
-
stable diffusion 插件篇(1)
前言: 首先要讲解的第一个超强插件是controlnet,跟着一起学习的小伙伴应该知道,如果仅是仅凭文生图或者是图生图的功能,想要生成的图片如自己所愿是比较有困难的,但是在sd里面,插件controlnet是可以做到帮助我们控制生图的,并且掌握contr...
-
【技术追踪】SDSeg:医学图像的 Stable Diffusion 分割(MICCAI-2024)
这医学图像分割领域啊,终究还是被 Stable Diffusion 闯进去了~ SDSeg:第一个基于 Stable Diffusion 的 latent 扩散医学图像分割模型,在五个不同医学影像模态的基准数据集上超越了现有的最先进方法~ 论...
-
首个超越GPT4o级开源模型!Llama 3.1泄密:4050亿参数,下载链接、模型卡都有了
Llama3.1终于现身了,不过出处却不是 Meta 官方。 今日,Reddit 上新版 Llama 大模型泄露的消息遭到了疯传,除了基础模型,还包括8B、70B 和最大参数的405B 的基准测试结果。 下图为 Llama3.1各版本与 OpenAI G...
-
AIGC各个应用场景下的模型选择
需要注意的是,下述模型可以在不同任务和领域中灵活应用,它们的归属也会根据模型的设计和主要应用领域而有所变化,并不绝对。 自然语言处理模型 模型层中自然语言理解(Natural LanguageUnderstanding,NLU 和自然语言生成(N...
-
Stable Diffusion背后的技术原理与实现细节
Stable Diffusion背后的技术原理与实现细节 I. 引言 A. Stable Diffusion的定义 B. 技术重要性概述 C. 本文目标与结构 II. 深度学习与图像生成 A. 深度学习简介 B. 图像生成任务 C. 生成...
-
Stable Diffusion 入门教程之参数详解(下)
1. 介绍 上一文中《Stable Diffusion 入门教程之参数详解(上)》对 Stable Diffusion 绘图的常用基础参数进行了解读,本文将继续深入探讨Stable Diffusion绘图的进阶参数,这些参数为...
-
调研分析:LLama大模型
1. 引言 在当前的自然语言处理(NLP)研究中,大规模预训练模型如BERT、GPT-3和RoBERTa已经展示了其卓越的性能和广泛的应用。随着技术的发展,新的模型不断涌现,推动了NLP领域的持续进步。本文将聚焦于LLama模型,分析其结构、预训练策略、优...
-
在stable diffusion中如何分辨lora、大模型、controlnet
LoRA (LowRank Adaptation Stable Diffusion LoRA 是微软的研究人员为了解决大语言模型微调而开发的一项技术,它是一个多模态语言-图像模型,LORA 可以学习将其语言表征迁移到图像 modal 中从而获得跨模态...
-
Mistral AI 发布 Codestral-22B,精通 80+ 编程语言,22B 参数超越 70B Code Llama
前言 大型语言模型 (LLM 在代码生成领域展现出巨大的潜力,但现有的模型在支持的编程语言数量、生成速度和代码质量方面仍存在局限性。法国 AI 独角兽 Mistral AI 近期发布了其首款代码生成模型 Codestral-22B,宣称在多项指标上超越...
-
RAG微调Llama 3竟超越GPT-4!英伟达GaTech华人学者提出RankRAG框架
【新智元导读】来自佐治亚理工学院和英伟达的两名华人学者带队提出了名为RankRAG的微调框架,简化了原本需要多个模型的复杂的RAG流水线,用微调的方法交给同一个LLM完成,结果同时实现了模型在RAG任务上的性能提升。 在需要大量事实知识的文本生成任务中,R...
-
在本地部署 Stable Diffusion:详细教程
第一步:环境准备 1、安装 Python 和 Conda 确保您的计算机上已安装 Python 3.x 版本。 如果您使用 Conda 进行环境管理,请安装 Miniconda 或 Anaconda。 2、创建和激活虚拟环境 打开命令行终端,并执...
-
ChatGPT无法取代人类程序员! IEEE 35页论文测出困难编码正确率仅为0.66%
【新智元导读】6月,IEEE刊登了一篇对ChatGPT代码生成任务进行系统评估的论文,数据集就是程序员们最爱的LeetCode题库。研究揭示了LLM在代码任务中出现的潜在问题和能力局限,让我们能够对模型做出进一步改进,并逐渐了解使用ChatGPT写代码的最...
-
AIGC 007-E4T基于编码器的域调优用于文本到图像模型的快速个性化!
AIGC 007-E4T基于编码器的域调优用于文本到图像模型的快速个性化! 文章目录 0 论文工作 1 论文方法 2 效果 0 论文工作 这篇论文提出了一种使用领域特定编码器来快速将文本到图像模型适配到新领域的方案...
-
深入探索Llama 2:下一代开源语言模型的革新与影响
Llama 2是Meta AI发布的一款先进的开源大模型,属于大型语言模型(LLM)类别。它是Transformer架构的一种变体,经过预先训练并在多种文本和代码数据集上进行微调,旨在提升功能和安全性。Llama 2的关键特点包括: 庞大的训练数据集...
-
深入浅出解析Stable Diffusion中U-Net的核心知识与价值 | 【算法兵器谱】
Rocky Ding 公众号:WeThinkIn 写在前面 【算法兵器谱】栏目专注分享AI行业中的前沿/经典/必备的模型&论文,并对具备划时代意义的模型&论文进行全方位系统的解析...
-
AIGC 入门指南 - 2024 (万字精品)
在微信中阅读,关注公众号:CodeFit。 创作不易,如果你觉得这篇文章对你有帮助,请不要忘了 点赞、分享 和 关注 我的公众号:CodeFit,为我的持续创作提供一些动力。 本文参考了不少论文,内容显得有点学院风,阅读起来需要点耐心。...
-
Stable Diffusion教程 | 图生图局部重绘实战详解
局部重绘是Stable Diffusion模型在图像生成应用中的一个核心特性,它赋予用户针对图像特定部分进行再创作的能力,以此实现丰富多彩的视觉表达与创新效果。通过启用局部重绘功能,AI绘画的创新潜力与操作灵活性得到显著提升,使得用户能够在广阔的创意疆域内...
-
变分自编码器(VAE)在AIGC中的应用及其技术解析
本文收录于专栏:精通AI实战千例专栏合集 https://blog.csdn.net/weixin_52908342/category_11863492.html 从基础到实践,深入学习。无论你是初学者还是经验丰富的老手,对于本专栏案例和项目实践...
-
揭秘AI精准输出:如何构建完美的AIGC提示词?
揭秘AI精准输出:如何构建完美的AIGC提示词?? 文章目录 揭秘AI精准输出:如何构建完美的AIGC提示词?? 摘要 引言 正文 ? 提示词的基本概念 1. 什么是提示词? 2. 提示词的作用 ? 如何编写有效的提示词? 理...
-
【论文精读】DALLE2: Hierarchical Text-Conditional Image Generation with CLIP Latents
文章目录 一、前言 (一)DALLE2 简介 (二)DALLE2和DALLE的对比 (三)相关模型推出时间 二、文章概要 (一)标题 (二)摘要 (三)引言 (四)模型架构 三、方法 (一)图像生成的相关工作 (二)diffusion...
-
AI绘画神器ComfyUI 整合包:工作流界面,解压即用,快速入门AI绘画
上周赛博佛祖秋葉 Aki 发布了针对 ComfyUI 的整合安装包,让这款原本偏专业的 AI 绘画工具对初学者来说更容易上手使用了,我也安装试用了一下,的确非常方便,今天就为大家详细介绍一下整合包的用法 ~ 一、ComfyUI 简介 ComfyU...
-
谷歌Deepmind表示开放式AI是实现超级智能的关键
谷歌 Deepmind 的研究人员表示,AI 系统具备开放式的能力是发展超级智能的关键。他们认为,单纯依靠不断扩大的数据集并不足以实现超级人工智能(ASI),而现有的规模化策略往往集中在使用更多的计算资源和数据。相反,AI 系统必须能够以开放式的方式产生新...
-
深入浅出学习Stable diffusion之Tiled Diffusion&VAE
今日言论: 马斯克的管理风格非常独特,他不需要非技术性的中层管理人员,员工表现不佳就会被裁,也不喜欢大型会议。...
-
快速入门大模型技术与应用,推荐你从Stable Diffusion开始学起
ChatGPT狂飙160天,世界已经不是之前的样子。 新建了免费的人工智能中文站https://ai.weoknow.com 新建了收费的人工智能中文站https://ai.hzytsoft.cn/ 更多资源欢迎关注 世界是变化的,分子是...
-
Github万星!北航发布零代码大模型微调平台LlamaFactory
在人工智能领域,大语言模型(LLMs)已成为推动技术进步的关键力量。它们在理解和生成自然语言方面展现出了卓越的能力,从而在问答系统、机器翻译、信息提取等多样化任务中发挥着重要作用。然而,要将这些模型适配到特定的下游任务中,通常需要进行微调(fine-tun...
-
如何在本地运行Stable Diffusion生成震撼图像
2022年AI的奇迹:如何在本地运行Stable Diffusion生成震撼图像 2022年是人工智能领域的奇迹之年。Stability.ai 开源的 Stable Diffusion 模型与 OpenAI 发布的 ChatGPT,像两颗耀眼的明星,点...
-
Stable Diffusion教程|图生图局部重绘实战详解
局部重绘是Stable Diffusion模型在图像生成应用中的一个核心特性,它赋予用户针对图像特定部分进行再创作的能力,以此实现丰富多彩的视觉表达与创新效果。通过启用局部重绘功能,AI绘画的创新潜力与操作灵活性得到显著提升,使得用户能够在广阔的创意疆域内...
-
ai绘画软件哪个好用?轻松开启艺术创作新时代
在这个数字化飞速发展的时代,艺术创作也迎来了科技的春风。 你是否在创作时遇到过技巧瓶颈,或是灵感枯竭的困境?或许,你曾因为工具限制而无法完美呈现心中的画面? 这时候,AI绘画软件就能大显身手了。它们不仅能够帮你克服技术难题,还能激发你的创意潜能,让...
-
【AIGC调研系列】MiniCPM-Llama3-V2.5模型与GPT-4V对比
MiniCPM-Llama3-V2.5模型与GPT-4V的对比可以从多个方面进行分析,包括性能、应用场景和技术特点。 从性能角度来看,MiniCPM-Llama3-V2.5在OCR识别、模型幻觉能力和空间理解能力方面表现出色,实现了开源模型的性能SOTA...
-
Stable Diffusion模型介绍
在深度学习和人工智能领域,Stable Diffusion模型作为一项前沿技术,已经引起了广泛的关注。本文将深入探讨Stable Diffusion模型的种类、特点以及它们在不同场景下的应用。 1. CheckPoint模型 Checkpoint模型...
-
Stable Diffusion的微调方法详解
Stable Diffusion作为一种强大的文本到图像生成模型,已经在艺术、设计和科研等多个领域取得了广泛的应用。然而,为了使其更好地适应特定任务或领域,微调(Fine-tuning)技术显得尤为重要。本文将详细介绍Stable Diffusion的微调...
-
【AIGC调研系列】llama 3与GPT4相比的优劣点
Llama 3与GPT-4相比,各有其优劣点。以下是基于我搜索到的资料的详细分析: Llama 3的优点: 更大的数据集和参数规模:Llama 3基于超过15T token的训练,这相当于Llama 2数据集的7倍还多[1][3]。此外,它拥有40...