【AI绘画】FLUX：这款新的人工智能图像生成器非常善于创造人手

FLUX.1 是 Stable Diffusion 的公开重量级继承者，可将文本转化为图像。

FLUX.1 dev 生成图像：“A beautiful queen of the universe holding up her hands, face in the background.”。

就在7月下旬，人工智能初创公司黑森林实验室（Black Forest Labs）宣布成立公司，并发布了第一套名为 FLUX.1 的文本到图像人工智能模型。这家总部位于德国的公司由开发了稳定扩散（Stable Diffusion）技术并发明了潜在扩散技术的研究人员创立，旨在为图像和视频创建先进的生成式人工智能。

FLUX.1 的发布是在 Stability AI 于 6 月中旬发布 Stable Diffusion 3 Medium 之后七周左右。Stability AI 的产品因在生成人体解剖图方面表现不佳而受到图像合成爱好者的广泛批评，用户在社交媒体上分享了肢体变形的例子。稳定人工智能公司的三位主要工程师罗宾-隆巴赫（Robin Rombach）、安德烈亚斯-布拉特曼（Andreas Blattmann）和多米尼克-洛伦茨（Dominik Lorenz）早些时候离职，他们后来与潜在扩散联合开发者帕特里克-埃塞尔（Patrick Esser）等人一起创建了黑森林实验室（Black Forest Labs）。

Black Forest Labs 发布了三种 FLUX.1 文本到图像模型：高端商业 "pro "版、非商业使用的中端开放权重 "dev "版和更快的开放权重 "schnell "版（"schnell "在德语中意为快速）。Black Forest Labs 声称，其模型在图像质量和文本提示的遵从性等方面优于 Midjourney 和 DALL-E 等现有选择。

AI-generated image by FLUX.1 dev: “A close-up photo of a pair of hands holding a plate full of pickles.”

AI-generated image by FLUX.1 dev: A hand holding up five fingers with a starry background.

AI-generated image by FLUX.1 dev: “An Ars Technica reader sitting in front of a computer monitor. The screen shows the Ars Technica website.”

AI-generated image by FLUX.1 dev: “a boxer posing with fists raised, no gloves.”

AI-generated image by FLUX.1 dev: “An advertisement for ‘Frosted Prick’ cereal.”

AI-generated image of a happy woman in a bakery baking a cake by FLUX.1 dev.

AI-generated image by FLUX.1 dev: “An advertisement for ‘Marshmallow Menace’ cereal.”

AI-generated image of “A handsome Asian influencer on top of the Empire State Building, instagram” by FLUX.1 dev.

根据我们的经验，两个更高端的 FLUX.1 模型的输出在及时保真度上一般可与 OpenAI 的 DALL-E 3 相媲美，逼真度似乎接近 Midjourney 6。与稳定版 Diffusion XL 相比，它们有了很大的改进，而稳定版 Diffusion XL 是团队在稳定版下发布的最后一个重要版本（如果不算 SDXL Turbo）。

FLUX.1 模型采用了该公司所谓的 “混合架构”，结合了变压器和扩散技术，参数扩展到 120 亿个。Black Forest Labs 称，它在以前的扩散模型基础上进行了改进，加入了流匹配和其他优化功能。

FLUX.1 在生成人类双手方面似乎很有能力，而这正是早期图像合成模型（如 Stable Diffusion 1.5）的一个薄弱环节，原因是缺乏以双手为重点的训练图像。从早期开始，其他人工智能图像生成器（如 Midjourney）也掌握了手部图像的生成，但值得注意的是，FLUX 1 的开放权重模型能相对准确地呈现各种姿势的手部图像。

我们从 GitHub 上下载了 FLUX.1 开发模型的权重文件，但它高达 23GB，无法容纳在我们 RTX 3060 显卡的 12GB VRAM 中，因此需要量化才能在本地运行（减小文件大小），据说（通过 Reddit 上的聊天）有些人已经取得了成功。

相反，我们在人工智能云托管平台 Fal 和 Replicate 上使用 FLUX.1 模型进行了实验，虽然 Fal 提供了一些免费的启动点数，但使用这些平台需要付费。

如何在消费级显卡运行Flux.1

Diffusers

pip install git+https://github.com/huggingface/diffusers.git

然后可以使用 FluxPipeline 运行模型

import torch
from diffusers import FluxPipeline

pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-schnell", 
                                    torch_dtype=torch.bfloat16,
                                    revision="refs/pr/1",
                                   )
# 减少显存使用的方法如下
# pipe.vae.enable_tiling()
# pipe.vae.enable_slicing()
pipe.enable_sequential_cpu_offload() #save some VRAM by offloading the model to CPU. Remove this if you have enough GPU power
# pipe.enable_xformers_memory_efficient_attention()

prompt = "A cat holding a sign that says hello world"
image = pipe(
    prompt,
    guidance_scale=0.0,
    output_type="pil",
    num_inference_steps=4,
    max_sequence_length=256,
    generator=torch.Generator("cpu").manual_seed(0)
).images[0]
image.save("flux-schnell.png")

Colab T4 运行 schnell 和 dev

参考 camenduru/flux-jupyter

git clone https://github.com/camenduru/flux-jupyter.git

可以在Colab中先尝试，再将其搬到自己的本地环境中。

注意：官方提供的flux包没有量化手段，只能用于参考，不可直接用于消费级显卡环境。苹果用户可以使用MPS，但我没有Mac，不便测试，多多谅解

最后

说到 “信任和安全”，该公司没有提到它是从哪里获得的训练数据，这些数据教会了 FLUX.1 模型如何生成图像。从我们可以用模型生成的包含受版权保护的人物形象的输出结果来看，黑森林实验室很可能使用了大量未经授权的互联网图像搜刮数据，这些数据可能是由 LAION 收集的，该组织收集的数据集用于训练稳定扩散（Stable Diffusion）。目前这还只是猜测。虽然 FLUX.1 的基本技术成就值得关注，但我们感觉该团队很可能像 Stability AI 一样，在 "合理使用 "图片搜刮的道德规范方面玩得不亦乐乎。这种做法最终可能会招致类似针对 Stability AI 的诉讼。

虽然文本到图片的生成是黑森林目前的重点，但该公司计划下一步扩展到视频生成领域，并表示 FLUX.1 将作为正在开发的新文本到视频模型的基础，该模型将与 OpenAI 的 Sora、Runway 的 Gen-3 Alpha 和 Kuaishou 的 Kling 展开竞争，按需扭曲媒体现实。"黑森林的公告称："我们的视频模型将以高清晰度和前所未有的速度实现精确创作和编辑。

总结

**文章总结：《FLUX.1：Stable Diffusion的继承者，文笔变图像的新篇章》**
人工智能初创公司黑森林实验室（Black Forest Labs）于7月下旬正式推出其首款文本至图像的人工智能模型——FLUX.1。该模型作为Stable Diffusion的公开继承者，旨在通过精进的生成式AI技术提升图像与视频的生成质量。FLUX.1由Stable Diffusion核心技术团队创立，旨在解决前作在人体解剖图等生成方面的不足。
FLUX.1提供三种不同版本：商业版“pro”、中端开放权重的“dev”版和更快速的“schnell”版。FLUX.1在图像质量与文本输入遵从性上声称优于现有竞争者如Midjourney与DALL-E。该模型采用了混合架构，集成了变压器与扩散模型，参数量高达120亿，通过流匹配等新技术实现了显著优化，特别在生成人类手部图像方面展现出色能力。
然而，运行FLUX.1对硬件资源要求较高，需较大显存支持。本文提供了一些在现有硬件上运行的建议，如在消费级显卡上使用Diffusers库或借助云托管平台进行实验。
黑森林实验室不仅专注于文本至图片的生成，还计划将FLUX.1技术应用于视频生成领域，与OpenAI的Sora等前沿模型竞争，进一步拓展AI在媒体内容创作与编辑中的应用边界。
尽管FLUX.1的技术成就令人瞩目，但有关其训练数据集来源的疑虑同样值得关注。若黑森林实验室也采用了类似Stability AI的“开放”搜刮策略，可能面临版权与道德风险，进而引发法律争议。
总之，FLUX.1作为Stable Diffusion的传承者，在图像生成质量与技术创新上迈出了重要步伐，同时也预示着AI在内容创作领域更为广泛的应用前景与潜在挑战。