前言
Stable Diffusion 大家已经很熟悉了,是由 CompVis 团队开发的,这是一个隶属于德国慕尼黑大学的计算机视觉研究小组。该团队由多个研究人员和开发者组成,包括 Patrick Esser、Robin Rombach 和 Björn Ommer 等人
现在团队核心开发人员Robin Rombach 宣布成立黑森林实验室,推出一种先进的开源文生图模型FLUX.1
开门见山,以下图像全部出自FLUX.1
以下是FLUX.1官宣详细信息,
黑森林实验室成立公告
今天,我们很高兴宣布成立黑森林实验室。我们深深扎根于生成式AI研究社区,使命是开发和推进用于图像和视频等媒体的最先进的生成式深度学习模型,拓展创造力、效率和多样性的界限。我们相信,生成式AI将成为未来所有技术的基础构建模块。通过向广泛的受众提供我们的模型,我们希望将其好处带给每个人,教育公众并增强对这些模型安全性的信任。我们决心建立生成媒体的行业标准。今天,作为实现这一目标的第一步,我们发布了FLUX.1模型套件,引领文本到图像合成的前沿发展
黑森林团队
我们是一支由杰出的AI研究人员和工程师组成的团队,在学术、工业和开源环境中开发基础生成式AI模型方面有着卓越的记录。我们的创新成果包括创建了VQGAN和Latent Diffusion,用于图像和视频生成的Stable Diffusion模型(Stable Diffusion XL、Stable Video Diffusion、Rectified Flow Transformers),以及用于超快实时图像合成的Adversarial Diffusion Distillation
我们的核心信念是,广泛可及的模型不仅促进了研究社区和学术界的创新和合作,还增加了透明度,这是建立信任和广泛采用的关键。我们的团队致力于开发最高质量的技术,并使其尽可能广泛地可用
资金
我们很高兴宣布成功完成了3100万美元的种子轮融资。本轮融资由我们的主要投资者Andreessen Horowitz领投,天使投资者Brendan Iribe、Michael Ovitz、Garry Tan、Timo Aila和Vladlen Koltun以及其他知名的AI研究和公司建设专家参与。我们还获得了General Catalyst和MätchVC的后续投资,以支持我们将最先进的AI技术从欧洲带给全球的使命
此外,我们很高兴宣布我们的顾问委员会成员,包括带来丰富的内容创作领域经验的Michael Ovitz,以及神经风格迁移的先锋和欧洲开放AI研究的领先专家Matthias Bethge教授
FLUX.1模型系列
我们发布了FLUX.1文本到图像模型套件,这些模型在图像细节、提示词遵循、风格多样性和场景复杂性方面定义了新的最先进水平
为了在可访问性和模型能力之间取得平衡,FLUX.1有三种变体:FLUX.1 [pro]、FLUX.1 [dev]和FLUX.1 [schnell]:
• FLUX.1 [pro]:FLUX.1的顶级性能,提供最先进的图像生成,具有一流的提示词遵循、视觉质量、图像细节和输出多样性。通过我们的API注册FLUX.1 [pro]访问权限。FLUX.1 [pro]也可以通过Replicate和fal.ai获取。此外,我们提供专用和定制的企业解决方案——请通过联系我们
• FLUX.1 [dev]:FLUX.1 [dev]是一个开放权重的、指导蒸馏的模型,适用于非商业应用。直接从FLUX.1 [pro]蒸馏而来,FLUX.1 [dev]获得了类似的质量和提示词遵循能力,同时比同尺寸的标准模型更高效。FLUX.1 [dev]的权重可在HuggingFace上获取,并可以在Replicate或Fal.ai上直接试用。对于商业环境中的应用,请通过联系
• FLUX.1 [schnell]:我们的最快模型,适合本地开发和个人使用。FLUX.1 [schnell]在Apache2.0许可下公开提供。类似于FLUX.1 [dev],权重可在Hugging Face上获取,推理代码可以在GitHub和HuggingFace’s Diffusers上找到。此外,我们很高兴在ComfyUI上实现了第一天就集成
Transformer驱动的流模型
所有公共的FLUX.1模型都是基于多模态和并行扩散Transformer块的混合架构,并扩展到12B参数。我们通过建立在流匹配上的方法改进了以前的最先进扩散模型,这是一种训练生成模型的一般和概念简单的方法,包括扩散作为特例。此外,我们通过引入旋转位置嵌入和并行注意力层提高了模型性能和硬件效率。我们将在不久的将来发布更详细的技术报告
图像合成的新基准
FLUX.1定义了图像合成的新最先进水平。我们的模型在各自的模型类别中设定了新的标准。FLUX.1 [pro]和[dev]在以下各个方面超越了流行的模型,如Midjourney v6.0、DALL·E 3(HD)和SD3-Ultra:视觉质量、提示词遵循、大小/纵横比可变性、字体和输出多样性。FLUX.1 [schnell]是迄今为止最先进的少步骤模型,不仅优于其同类竞争对手,还超越了强大的非蒸馏模型,如Midjourney v6.0和DALL·E 3(HD)。我们的模型经过特别微调,以保留预训练中的所有输出多样性。与当前的最先进水平相比,它们提供了显著改进的可能性,如下所示。
所有FLUX.1模型变体支持多种纵横比和0.1到2.0百万像素的分辨率,如以下示例所示。
接下来:面向所有人的最先进文本到视频
今天,我们发布了FLUX.1文本到图像模型套件。凭借其强大的创造力,这些模型为我们即将推出的竞争性生成文本到视频系统奠定了坚实的基础。我们的视频模型将解锁高分辨率和前所未有速度的精确创作和编辑。我们致力于继续引领生成媒体的未来
GitHub - black-forest-labs/flux: FLUX.1 模型的官方推理仓库
FLUX
由 Black Forest Labs 提供:https://blackforestlabs.ai
这个仓库包含运行文本到图像和图像到图像的 FLUX 潜在修正流 Transformer 的最简推理代码
本地安装
模型
提供三种模型:
• FLUX.1 [pro]
基础模型,通过 API 提供
• FLUX.1 [dev]
引导蒸馏变体
• FLUX.1 [schnell]
引导及步长蒸馏变体
FLUX.1 [schnell]
https://huggingface.co/black-forest-labs/FLUX.1-schnell
apache-2.0
a9e1e277b9b16add186f38e3f5a34044
FLUX.1 [dev]
https://huggingface.co/black-forest-labs/FLUX.1-dev
FLUX.1-dev 非商业许可
a6bd8c16dfc23db6aee2f63a2eba78c0
FLUX.1 [pro]
仅通过 API 提供
自动编码器的权重也根据 apache-2.0 发布,可以在上述任一 HuggingFace 仓库中找到。这些权重对于两种模型是相同的
使用
启动其中一个演示时,权重将自动从 HuggingFace 下载。要下载 FLUX.1 [dev]
,你需要登录,详见此处(https://huggingface.co/docs/huggingface_hub/guides/cli#huggingface-cli-login)。如果你已手动下载模型权重,可以通过环境变量指定下载路径:
export FLUX_SCHNELL=<path_to_flux_schnell_sft_file> export FLUX_DEV=<path_to_flux_dev_sft_file> export AE=<path_to_ae_sft_file>
要进行交互采样,请运行
python -m flux --name <name> --loop
或生成单个样本,请运行
python -m flux --name <name> \\ --height <height> --width <width> \\ --prompt "<prompt>"
还提供了一个 Streamlit 演示,支持文本到图像和图像到图像。可以通过以下命令运行演示
streamlit run demo_st.py
API 使用
API 提供对 pro 模型的访问。文档在此:docs.bfl.ml
在这个仓库中,还提供了一个简单的 Python 接口。要使用此接口,你首先需要在 api.bfl.ml 注册,并创建一个新的 API 密钥
要使用 API 密钥,可以运行 export BFL_API_KEY=<your_key_here>
或通过 api_key=<your_key_here>
参数提供。还需要按上述方式安装软件包
从 Python 使用:
from flux.api import ImageRequest # 这将直接创建一个 API 请求,但不会阻塞直到生成完成 request = ImageRequest("A beautiful beach") # 或:request = ImageRequest("A beautiful beach", api_key="your_key_here") # 以下任何一个将阻塞直到生成完成 request.url # -> https:<...>/sample.jpg request.bytes # -> b"..." 生成的图像字节 request.save("outputs/api.jpg") # 将样本保存到本地存储 request.image # -> 一个 PIL 图像
从命令行使用:
$ python -m flux.api --prompt="A beautiful beach" url https:<...>/sample.jpg # 生成并保存结果 $ python -m flux.api --prompt="A beautiful beach" save outputs/api # 直接打开图像 $ python -m flux.api --prompt="A beautiful beach" image show
但由于AIGC刚刚爆火,网上相关内容的文章博客五花八门、良莠不齐。要么杂乱、零散、碎片化,看着看着就衔接不上了,要么内容质量太浅,学不到干货。
这里分享给大家一份Adobe大神整理的《AIGC全家桶学习笔记》,相信大家会对AIGC有着更深入、更系统的理解。
有需要的朋友,可以点击下方免费领取!
AIGC所有方向的学习路线思维导图
这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。如果下面这个学习路线能帮助大家将AI利用到自身工作上去,那么我的使命也就完成了:
AIGC工具库
AIGC工具库是一个利用人工智能技术来生成应用程序的代码和内容的工具集合,通过使用AIGC工具库,能更加快速,准确的辅助我们学习AIGC
有需要的朋友,可以点击下方卡片免费领取!
精品AIGC学习书籍手册
书籍阅读永不过时,阅读AIGC经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验,结合自身案例融会贯通。
AI绘画视频合集
我们在学习的时候,往往书籍源码难以理解,阅读困难,这时候视频教程教程是就很适合了,生动形象加上案例实战,科学有趣才能更方便的学习下去。
总结
### 文章总结:《黑森林实验室及FLUX.1模型发布》**前言**
稳定扩散模型(Stable Diffusion)的开发者团队CompVis的核心成员Robin Rombach正式宣布成立黑森林实验室,并推出了先进的文生图模型——FLUX.1。
**黑森林实验室成立公告**
- **使命**:专注于开发和推广图像、视频等媒体的生成式深度学习模型,扩展创意、效率和多样性的边界。致力于生成式AI技术的普及和标准化。
- **团队背景**:包括AI研究领域的杰出人员和工程师,曾成功开发VQGAN、Latent Diffusion及Stable Diffusion等多个知名模型。
- **目标**:提高研究社区和公众对AI模型的理解和信任,促进创新与合作。
**资金与支持**
- **种子轮融资**:成功完成3100万美元融资,由Andreessen Horowitz领投,并有多个知名AI研究专家和投资机构参与。
- **顾问委员会**:包括Michael Ovitz(内容创作专家)和Matthias Bethge(神经风格迁移领域先驱)等。
**FLUX.1模型详解**
- **核心特征**:在图像细节、提示词遵循、风格多样性和场景复杂性方面达到新的最先进水平。
- **模型变体**:
- **FLUX.1 [pro]**:顶级性能,提供最佳图像质量和输出多样性,通过API访问。
- **FLUX.1 [dev]**:开放权重,适用于非商业应用,效率优化,可在HuggingFace上获取。
- **FLUX.1 [schnell]**:最快模型,用于本地开发和个人使用,Apache 2.0许可下公开。
- **技术核心**:基于Transformer块的混合架构,通过流匹配和改进旋转位置嵌入、并行注意力层提高性能和效率。
**性能与基准测试**
- **视觉质量和提示词遵循**:显著优于Midjourney v6.0、DALL-E 3(HD)和SD3-Ultra等当前流行模型。
- **灵活性**:支持多种纵横比和分辨率调整,适应不同应用场景。
**未来展望**
- **文本到视频的生成**:FLUX.1模型为即将推出的竞争性文本到视频系统提供了坚实基础,将实现高分辨率和快速创作编辑。
- **持续创新**:黑森林实验室承诺继续引领生成媒体技术的未来发展。
**资源与获取方式**
- **GitHub仓库**:提供FLUX.1模型的官方推理代码(https://blackforestlabs.ai)
- **模型的HuggingFace链接**:详细列出三种模型的访问和使用方式。
- **学习资源**:分享AIGC学习笔记、学习路线思维导图、AIGC工具库、精品书籍手册及视频教材等资源。
### 结论
黑森林实验室推出的FLUX.1模型,凭借其卓越的性能和多样化的应用场景,有望再次推动AI在图像生成和创意领域的发展,并为未来的文本到视频技术打下坚实基础。对AIGC感兴趣的读者,可通过其GitHub仓库及相关学习资源进行深入了解和实践。