前沿科技速递🚀
开源创新先锋fal.ai携手社区顶尖开发者,震撼发布AuraFlow v0.1——全球首个完全开源的大型整流流文本到图像生成模型,开启文生图领域新篇章!
极致开源精神:AuraFlow v0.1作为对Stable Diffusion 3开源争议的直接回应,坚持完全开源原则,无商业授权限制,彻底激发全球AI爱好者的创造力与探索欲,引领开源文生图技术潮流。
高效模型架构:基于6.8B参数的强大基础,AuraFlow通过优化MMDiT块设计,引入大型DiT Encoder块,实现模型算力利用率提升15%,展现卓越的计算效率与可扩展性,为大规模训练奠定坚实基础。
精准图像生成:针对Stable Diffusion 3中人物图像四肢扭曲的问题,AuraFlow在物体空间构成与色彩表现上展现出DiT模型的独特优势,虽v0.1版本在人物生成上仍有提升空间,但其潜力已初露锋芒,预示未来更加精细的图像生成能力。
零样本学习率迁移:创新采用最大更新参数化(muP)技术,实现零样本学习率迁移,相比传统方法,在大规模学习率预测上展现出更高的稳定性和可预测性,加速模型训练进程。
全面数据优化:重新标注所有数据集,确保图文对质量,极尽遵循DALL·E 3方法,剔除错误文本条件,显著提升指令遵循质量,让生成的图像更加贴近用户意图。
灵活应用生态:支持在线免费试用及ComfyUI等主流平台集成,用户可轻松下载模型权重,构建个性化工作流程。AuraFlow致力于成为文生图领域的标准骨干,为下游应用与创新工作提供强大支撑。
AuraFlow v0.1不仅是开源社区对技术进步的共同追求,更是对未来智能生成技术无限可能的勇敢探索。快来传神社区体验AuraFlow v0.1吧!
来源:传神社区
01 模型亮点
AuraFlow在技术上遵循了Stable Diffusion 3的路线,但在多个方面进行了优化和改进:
MMDiT的改进:研发团队发现,虽然MMDiT在性能上表现出色,但删除许多层并仅使用单个DiT块能够显著提高模型的可扩展性和计算效率。这一改动使得6.8B规模的模型浮点利用率提升了15%。
零样本学习率迁移:AuraFlow采用了最大更新参数化(muP)的零样本学习率迁移方式,与标准参数化(SP)相比,muP在大规模学习率的可预测性方面更具优势。
高质量图文对:为了确保数据集中没有错误的文本条件,研发团队重新添加了提示词,并使用了内部和外部提示词数据集来训练模型。这一做法显著提高了指令遵循的质量,使得生成的图像更加符合用户期望。
更优的模型架构:为了找到最佳架构,研发团队制作了一个更“胖”的模型,并通过实验确定了20~100的纵横比适合更大规模的训练。最终使用的3072/36架构使得模型大小达到了6.8B参数。
02 使用方法
使用AuraFlow模型生成文本到图像的过程相当直观,既可以通过Hugging Face的Diffusers库,也可以通过ComfyUI这样的图形界面工具来实现。下面我将详细介绍这两种方法的具体步骤。
基于huggingface diffusers的使用方式:
$ pip install transformers accelerate protobuf sentencepiece
$ pip install git+https://github.com/huggingface/diffusers.git
from diffusers import AuraFlowPipeline
import torch
pipeline = AuraFlowPipeline.from_pretrained(
"fal/AuraFlow",
torch_dtype=torch.float16
).to("cuda")
image = pipeline(
prompt="close-up portrait of a majestic iguana with vibrant blue-green scales, piercing amber eyes, and orange spiky crest. Intricate textures and details visible on scaly skin. Wrapped in dark hood, giving regal appearance. Dramatic lighting against black background. Hyper-realistic, high-resolution image showcasing the reptile's expressive features and coloration.",
height=1024,
width=1024,
num_inference_steps=50,
generator=torch.Generator().manual_seed(666),
guidance_scale=3.5,
).images[0]
ComfyUI的使用方式:
下载最新版ComfyUI
打开ComfyUI,创建一个新的工作流。
在工作流中添加一个文本到图像的转换节点,并选择已下载的AuraFlow模型。
配置节点的参数,如图像尺寸、推理步数、引导比例等。
输入提示并生成图像:
在文本输入框中输入你的提示文本。
点击生成按钮,ComfyUI将使用AuraFlow模型根据提示生成图像。
生成完成后,你可以在ComfyUI中预览和保存图像。
03 玩法展示
小编也尝试着用AuraFlow生成了一些图片,让我们一起看看吧!
以下是开源社区大佬们的图:
一起来看看视频吧!
传神社区
,赞1
04 模型与论文下载
传神社区:https://opencsg.com/models/AIAllies/AuraFlow
huggingface:https://huggingface.co/fal/AuraFlow
blog:https://blog.fal.ai/auraflow/
欢迎加入传神社区
•贡献代码,与我们一同共建更好的OpenCSG
•Github主页
欢迎🌟:https:// github.com/opencsg
•Huggingface主页
欢迎下载:https://huggingface.co/opencsg
•加入我们的用户交流群,分享经验
扫描上方二维码添加传神小助手
“ 关于OpenCSG
开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。
关注OpenCSG
加入传神社区
总结
**文章总结:AuraFlow v0.1震撼发布,引领开源文生图技术新潮流****一、项目概述**:
fal.ai携手社区顶尖开发者,发布了全球首个完全开源的大型整流流文本到图像生成模型AuraFlow v0.1,旨在激发全球AI爱好者的创造力与探索欲,开启文生图领域新篇章。
**二、核心优势**:
1. **极致开源精神**:无商业授权限制,彻底开放源码,引领开源文生图技术潮流。
2. **高效模型架构**:基于6.8B参数基础优化MMDiT块设计,提升算力利用率15%,展现卓越计算效率与可扩展性。
3. **精准图像生成**:针对人物图像扭曲问题优化,DiT模型在物体空间构成与色彩表现上具有独特优势。
4. **零样本学习率迁移**:引入muP技术,实现零样本学习率迁移,提升大规模学习率的稳定性和可预测性。
5. **全面数据优化**:重新标注数据集,剔除错误文本条件,提升指令遵循质量,使生成图像更贴近用户意图。
**三、模型亮点:**
- **MMDiT的改进**:提升模型可扩展性和计算效率。
- **高质量图文对**:重新标注数据,确保图文对质量,提升生成图像与用户期望的一致性。
- **更优的模型架构**:通过实验确定最佳架构,使用3072/36架构,总参数为6.8B。
**四、使用方法:**
用户可以通过Hugging Face的Diffusers库或图形界面工具ComfyUI轻松使用AuraFlow生成文本到图像的转换。具体步骤包括安装所需库、加载预训练模型、输入提示文本及生成图像等。
**五、社区互动与资源:**
传神社区提供了模型试用、技术交流及资源下载平台。用户可在线免费试用,并参与代码贡献、交流讨论等活动,共同推动开源文生图技术的发展。同时,也可访问Hugging Face等平台获取更多资源和支持。
**六、公司背景**:
开放传神(OpenCSG)成立于2023年,专注于大模型生态社区建设,为AI在垂直行业的应用提供解决方案和工具平台。
**结语**:
AuraFlow v0.1不仅是开源社区技术进步的体现,更是对未来智能生成技术无限可能的探索。诚邀各界人士加入传神社区,共同参与这一激动人心的技术革新。