前言
TLDR
还记得 Stable Diffusion 吗?这款开源文本到图像生成模型,现在其部分创始成员成立了新公司 Black Forest Labs,并带来了全新的力作——Flux,一个拥有 120 亿参数的文本到图像模型,也是目前最大的开源模型。Flux 提供三个版本:FLUX.1 [dev](非商业开源基础模型)、FLUX.1 [schnell](速度提升 10 倍的精简版)和 FLUX.1 [pro](仅限 API 使用的闭源版本)。Flux 以其卓越的图像质量、先进的人体解剖结构和逼真度、更精准的提示依从性以及更快的生成速度,被誉为文本到图像生成领域的重大突破。
Stable Diffusion 创始人再创业,Flux 横空出世!
Stable Diffusion 作为开源文本到图像生成领域的先驱,以其强大的图像生成能力和对社区的开放态度,在 AI 领域掀起了一股创新浪潮。如今,Stable Diffusion 部分创始成员创建了新公司 Black Forest Labs,并带来了他们的最新力作——Flux,再次将文本到图像生成技术推向新的高度。
2024 年 8 月 1 日,Black Forest Labs 正式发布 Flux,并将其誉为“文本到图像模型的下一个飞跃”。Flux 拥有 120 亿个参数,是迄今为止最大的开源文本到图像模型,其生成图像的质量和细节水平令人惊叹,甚至可以与 Midjourney 媲美。Black Forest Labs 强调,Flux 的一大优势是其生成图像的质量和分辨率。
Prompt: Extreme close-up of a single tiger eye, direct frontal view. Detailed iris and pupil. Sharp focus on eye texture and color. Natural lighting to capture authentic eye shine and depth. The word “FLUX” is painted over it in big, white brush strokes with visible texture.
Flux 的核心优势:更逼真、更精准、更多样
为了满足不同用户群体的需求,Black Forest Labs 发布了三种版本的 Flux 模型:
• FLUX.1 [dev]: 作为 Flux 家族的基础模型,FLUX.1 [dev] 采用了非商业许可证开源,并托管在 HuggingFace 平台上,供社区在其基础上构建。开发者和研究人员可以深入了解 Flux 的内部机制,并在此基础上进行改进和创新,推动模型的持续发展。
• FLUX.1 [schnell]: “Schnell” 在德语中意为“快速”,而 FLUX.1 [schnell] 也名副其实。作为基础模型的精简版,FLUX.1 [schnell] 继承了 Flux 家族强大的图像生成能力,同时运行速度最高可达基础模型的 10 倍。它采用 Apache 2 许可证开源,为开发者和研究人员提供了更大的灵活性和便利性,可以更轻松地在本地环境中进行开发和测试,而无需依赖强大的计算资源。
• FLUX.1 [pro]: 为了满足企业用户的需求,Black Forest Labs 还推出了 FLUX.1 [pro]。这是一个闭源版本,只能通过 API 使用。FLUX.1 [pro] 提供了更稳定、更可靠的图像生成服务,以及更高级的功能和定制选项,以满足企业用户的特定需求。
Flux 模型凭借其强大的功能和卓越的性能,为用户带来了前所未有的文本到图像生成体验:
• 增强的图像质量: Flux 模型能够生成更高分辨率、更精细的图像,无论是细节刻画还是色彩还原都达到了新的高度。
Prompt: Portrait of a woman with sleek, black hair, her serene face framed by the collar of a light gray Patagonia fleece jacket. She gazes directly at the camera, a subtle strength in her eyes. The background is a soft-focus panorama of Huangshan’s iconic peaks, bathed in the warm, golden light of a setting sun. The mood is tranquil yet powerful, echoing the timeless beauty of the mountains.
• 先进的人体解剖结构和逼真度: Flux 模型在生成人体图像时,能够更准确地表现人体的解剖结构,生成高度逼真的人物图像。
• 改进的提示依从性: Flux 模型能够更好地理解用户的文本提示,生成更符合用户预期,更精准的图像。
Prompt: A richly laden table appears amidst a misty mountain forest. Unseen hands, wreathed in ethereal light, arrange bowls of fantastical delicacies – glowing fruits, steaming dumplings, jade-colored tea. Capture the intricate details of mystical cuisine, inspired by Chinese folklore. The scene evokes wonder and enchantment, hinting at a magical feast for weary travelers on the Journey to the West.
• 卓越的速度: 特别是 Flux Schnell 版本,其运行速度相比之前的模型有了显著提升,能够在更短的时间内生成高质量的图像。
Flux 背后的技术创新:混合架构与“流匹配”技术
Flux 之所以能取得如此优异的性能,主要归功于两大技术创新:
混合架构: Flux 采用了一种创新的混合架构,它结合了多模态和并行扩散变换器块的优势。多模态特性使 Flux 能够捕捉图像的不同方面,而并行计算则提高了图像生成的效率。这种混合架构赋予了 Flux 强大的图像生成能力,使其能够生成更逼真、更细腻的图像。Prompt: A giant potato in sunglasses and a Hawaiian shirt lounges on a beach towel surrounded by colorful beach balls and flip-flops. Nearby, anthropomorphic fruits play beach volleyball. In the background, a lighthouse sand sculpture stands next to an ice cream truck with a giant cone, serving treats to cheerful beachgoers. The scene captures a fun, playful summer vibe with the sound of waves crashing nearby.
“流匹配”技术: 与传统的扩散模型不同,Flux 采用了一种名为“流匹配”的技术来训练生成模型。这种方法更加通用和简洁,将扩散模型视为一个特例,并通过学习数据分布和模型分布之间的可逆变换来实现高效的图像生成。“流匹配”技术的应用,使得 Flux 模型在训练过程中能够更有效地学习数据的特征,从而生成更逼真、更自然的图像。Black Forest Labs :开源 AI 生力军
Black Forest Labs 由 Robin Rombach 和 Patrick Esser 等 Stable Diffusion 核心成员创建,致力于开发最先进的生成式 AI 模型,推动图像和视频生成技术的进步。Black Forest Labs 的使命是让生成式 AI 成为未来所有技术的基石,并通过将其模型提供给广大用户,造福每个人,教育公众,并增强对这些模型安全的信任。
Black Forest Labs 在 2024 年 8 月成功完成了 3100 万美元的种子轮融资,由 Andreessen Horowitz 领投,Brendan Iribe、Michael Ovitz 和 Garry Tan 等知名投资者也参与其中。这笔资金将用于支持 Black Forest Labs 继续开发 cutting-edge 的生成式深度学习模型,包括图像和视频领域。Black Forest Labs 团队成员均为经验丰富的 AI 研究人员和工程师,他们在生成式 AI 领域拥有丰富的经验和卓越的成就。
Flux 的未来:引领文本到图像生成的新浪潮
Flux 的发布标志着 Black Forest Labs 向着成为生成式 AI 领域领导者的目标迈出了坚实的一步。Flux 的开源特性将使其成为开发者和研究人员的强大工具,推动文本到图像生成技术的快速发展和应用。Black Forest Labs 表示,他们将继续致力于 Flux 模型的研发和改进,并计划在未来推出更多功能更强大、性能更优异的版本。他们相信,在不久的将来,Flux 将会成为文本到图像生成领域的标杆,并引领生成式 AI 技术的新浪潮。
这里直接将该软件分享出来给大家吧~
1.stable diffusion安装包
随着技术的迭代,目前 Stable Diffusion 已经能够生成非常艺术化的图片了,完全有赶超人类的架势,已经有不少工作被这类服务替代,比如制作一个 logo 图片,画一张虚拟老婆照片,画质堪比相机。
最新 Stable Diffusion 除了有win多个版本,就算说底端的显卡也能玩了哦!此外还带来了Mac版本,仅支持macOS 12.3或更高版本。
2.stable diffusion视频合集
我们在学习的时候,往往书籍源码难以理解,阅读困难,这时候视频教程教程是就很适合了,生动形象加上案例实战,一步步带你入坑stable diffusion,科学有趣才能更方便的学习下去。
3.stable diffusion模型下载
stable diffusion往往一开始使用时图片等无法达到理想的生成效果,这时则需要通过使用大量训练数据,调整模型的超参数(如学习率、训练轮数、模型大小等),可以使得模型更好地适应数据集,并生成更加真实、准确、高质量的图像。
4.stable diffusion提示词
提示词是构建由文本到图像模型解释和理解的单词的过程。可以把它理解为你告诉 AI 模型要画什么而需要说的语言,整个SD学习过程中都离不开这本提示词手册。
5.SD从0到落地实战演练
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名SD大神的正确特征了。
这份完整版的stable diffusion资料我已经打包好,需要的点击下方插件,即可前往免费领取!
总结
### 文章总结:Flux——文本到图像生成的新纪元#### 前言与TLDR
Stable Diffusion的创始团队成立了Black Forest Labs,并推出了全新的文本到图像模型Flux。Flux拥有120亿参数,是目前最大的开源模型,提供三个版本:FLUX.1 [dev](非商业开源)、FLUX.1 [schnell](速度提升10倍的精简版)和FLUX.1 [pro](仅限API使用的闭源版)。Flux以其卓越的图像质量、精准的人体解剖结构和更快的生成速度,成为文本到图像生成领域的重大突破。
#### Flux的诞生与核心优势
- **诞生背景**:Stable Diffusion的创始成员创建了Black Forest Labs,并于2024年8月1日正式发布Flux,被誉为“文本到图像模型的下一个飞跃”。
- **核心优势**:
- **增强的图像质量**:高分辨率、精细的图像细节和色彩还原。
- **先进的人体解剖结构和逼真度**:生成高度逼真的人物图像。
- **改进的提示依从性**:更好地理解用户文本提示,生成更精准的图像。
- **卓越的速度**:特别是Flux Schnell版本,运行速度显著提升。
#### Flux的三大版本
- **FLUX.1 [dev]**:非商业许可证开源,托管在HuggingFace平台,供社区构建和改进。
- **FLUX.1 [schnell]**:速度提升10倍的精简版,Apache 2许可证开源,适合本地开发和测试。
- **FLUX.1 [pro]**:闭源版本,仅限API使用,提供稳定、可靠的图像生成服务及高级定制选项。
#### Flux的技术创新
- **混合架构**:结合多模态和并行扩散变换器块的优势,提高图像生成能力和效率。
- **“流匹配”技术**:通过学习数据分布和模型分布之间的可逆变换,实现高效的图像生成。
#### Black Forest Labs的愿景与成就
- **愿景**:让生成式AI成为未来技术的基石,通过开源模型造福用户,增强公众对AI的信任。
- **成就**:成功完成3100万美元种子轮融资,由Andreessen Horowitz领投,团队成员均为AI领域的精英。
#### Flux的未来展望
Flux的发布标志着Black Forest Labs在生成式AI领域的领先地位。其开源特性将推动文本到图像生成技术的快速发展,未来计划推出更多功能强大、性能优异的版本,引领生成式AI技术的新浪潮。
#### 附加资源
- **Stable Diffusion安装包**:支持多平台,包括Mac版本。
- **视频合集**:提供生动形象的教程,帮助用户入门Stable Diffusion。
- **模型下载与调整**:通过训练数据和调整超参数,提升模型生成效果。
- **提示词手册**:指导用户如何构建有效的文本提示。
- **实战演练**:提供从0到落地的完整学习路径,助力用户成为Stable Diffusion专家。