本文来自huggingface翻译
Stable Diffusion 3 Medium是一种多模态扩散变换器 (MMDiT) 文本到图像模型,其在图像质量、排版、复杂提示理解和资源效率方面的性能有极大提升。
有关更多技术细节,请参阅研究论文。
请注意:此模型是根据 Stability 非商业研究社区许可证发布的。如需创建者许可证或企业许可证,请访问 Stability.ai 或联系我们获取商业许可详情。
模型描述
开发者: Stability AI 模型类型: MMDiT 文本到图像生成模型 **模型描述:**这是一个可以根据文本提示生成图像的模型。它是一个多模态扩散变换器(https://arxiv.org/abs/2403.03206),使用三个固定的、预训练的文本编码器(OpenCLIP-ViT/G、CLIP-ViT/L和T5-xxl)执照
非商业用途:稳定扩散 3 介质在稳定性 AI 非商业研究社区许可证下发布。该模型可免费用于学术研究等非商业用途。 商业用途:未经 Stability 单独商业许可,此模型不可用于商业用途。我们鼓励专业艺术家、设计师和创作者使用我们的创作者许可。请访问https://stability.ai/license了解更多信息。模型来源
对于本地或自托管使用,我们建议使用ComfyUI进行推理。
稳定扩散 3 培养基可在我们的稳定性 API 平台上使用。
稳定扩散 3 模型和工作流程可通过稳定助手 (Stable Assistant)和 Discord (Stable Artisan)获得。
训练数据集
我们使用合成数据和经过筛选的公开数据来训练我们的模型。该模型已在 10 亿张图像上进行了预训练。微调数据包括 3000 万张专注于特定视觉内容和风格的高质量美学图像,以及 300 万张偏好数据图像。
文件结构
├── comfy_example_workflows/
│ ├── sd3_medium_example_workflow_basic.json
│ ├── sd3_medium_example_workflow_multi_prompt.json
│ └── sd3_medium_example_workflow_upscaling.json
│
├── text_encoders/
│ ├── README.md
│ ├── clip_g.safetensors
│ ├── clip_l.safetensors
│ ├── t5xxl_fp16.safetensors
│ └── t5xxl_fp8_e4m3fn.safetensors
│
├── LICENSE
├── sd3_medium.safetensors
├── sd3_medium_incl_clips.safetensors
├── sd3_medium_incl_clips_t5xxlfp8.safetensors
└── sd3_medium_incl_clips_t5xxlfp16.safetensors
为方便用户使用,我们准备了三种包装版本的 SD3 中型型号,每种型号都配备了相同的 MMDiT 和 VAE 重量组。
sd3_medium.safetensors 包括 MMDiT 和 VAE 权重,但不包括任何文本编码器。 sd3_medium_incl_clips_t5xxlfp16.safetensors包含所有必要的权重,包括 T5XXL 文本编码器的 fp16 版本。 sd3_medium_incl_clips_t5xxlfp8.safetensors包含所有必要的权重,包括 T5XXL 文本编码器的 fp8 版本,在质量和资源要求之间提供平衡。 sd3_medium_incl_clips.safetensors包括除 T5XXL 文本编码器之外的所有必要权重。它需要的资源很少,但如果没有 T5XXL 文本编码器,模型的性能会有所不同。 该text_encoders文件夹包含三个文本编码器及其原始模型卡链接,以方便用户使用。text_encoders 文件夹中的所有组件(以及嵌入在其他包中的等效组件)均受其各自的原始许可证约束。 该example_workfows文件夹包含舒适的工作流程示例。与扩散器一起使用
确保升级到最新版本的扩散器:pip install -U 扩散器。然后你可以运行:
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
image = pipe(
"A cat holding a sign that says hello world",
negative_prompt="",
num_inference_steps=28,
guidance_scale=7.0,
).images[0]
image
有关优化和图像到图像支持的更多详细信息,请参阅文档。
用途
预期用途
预期用途包括:
创作艺术作品并用于设计和其他艺术过程。 在教育或创意工具中的应用。 生成模型的研究,包括了解生成模型的局限性。该模型的所有使用都应符合我们的可接受使用政策。
超出范围的用途
该模型并未经过训练以真实地代表人物或事件。因此,使用该模型生成此类内容超出了该模型的能力范围。
安全
作为我们安全设计和负责任的 AI 部署方法的一部分,我们在模型开发的整个过程中实施安全措施,从开始预训练模型到每个模型的持续开发、微调和部署。我们实施了许多安全缓解措施,旨在降低严重危害的风险,但我们建议开发人员进行自己的测试并根据其特定用例应用其他缓解措施。
有关我们的安全方法的更多信息,请访问我们的安全页面。
评估方法
我们的评估方法包括结构化评估以及针对特定严重危害(例如儿童性虐待和剥削、极端暴力和血腥、露骨色情内容以及非自愿裸露)的内部和外部红队测试。测试主要以英语进行,可能无法涵盖所有可能的危害。与任何模型一样,该模型有时可能会对用户提示产生不准确、有偏见或令人反感的响应。