【持续更新中！图像-文本对数据集汇总】Stable Diffusion 3 重磅开源，超全图像生成必备训练数据集、教程汇总

Stability AI 已经正式开源 Stable Diffusion 3（简称 SD3）！SD3 是一个图像生成模型，只要给定一段描述性的文字，就能够创造出与之匹配的视觉作品。下图就是由 SD3 生成的图像。

* prompt

史诗级动漫作品：一位巫师在夜晚的山顶上向黑暗的天空施放宇宙咒语，咒语上写着「Stable Diffusion 3」，由五彩缤纷的能量组成

在 SD3 的背后，是庞大的图像-文本对训练数据集。这种模型通常需要通过训练大量的数据，学习如何将文本描述转化为图像。

如果你也想训练这样一个 SD 模型，却苦于没有合适的数据集，HyperAI超神经汇总了 10 个优质的图像-文本对数据集，助你打造个性化的图像生成模型。除此之外，小编还在最后分享了 3 个基于不同架构开源的图像生成教程，供大家体验创作。

SD3 开源地址：

https://huggingface.co/stabilityai/stable-diffusion-3-medium

图像-文本对数据集

WIT 图像-文本数据集

发布机构：Google

发布时间：2021 年

预估大小：25.2 GB

下载地址：https://go.hyper.ai/yUtLy

WIT 全称 Wikipedia-based Image Text，是一个大型多模态多语言数据集，由 3,760 万个丰富的图像-文本示例的精选集组成。该数据集的规模使其可以用作多模态机器学习模型的预训练数据集。

RedCaps 图像文本对数据集

发布机构：密歇根大学

发布时间：2021 年

预估大小：1012.72 MB

下载地址：https://go.hyper.ai/DmgJl

RedCaps 是一个大规模的图像-文本对数据集，数据源自 Reddit，总数达 120 万。这些图片和文本描述了各种各样的物体和场景。

MMDialog 开放域多轮对话数据集

发布机构：北京大学

发布时间：2022 年

预估大小：19.19 GB

下载地址：https://go.hyper.ai/g8NUx

MMDialog 是一个大规模的多模态开放域对话数据集，包含 108 万个完整对话 session，超过 4,000 个对话主题，以及 153 万张非重复图像，每个对话 session 有平均 2.59 张图像。

DVQA 图像问答数据集

发布机构：罗彻斯特理工学院

发布时间：2018 年

预估大小：5.42 GB

下载地址：https://go.hyper.ai/MpEAm

DVQA 是一个在问答框架中测试条形图理解的数据集，涵盖了大量通用的柱状图风格，包含 30 万张图像对应的约 348 万个问题答案对。

DAQUAR 真实世界图像问答数据集

发布机构：马克斯-普朗克计算机科学研究所

发布时间：2018 年

预估大小：414.12 MB

下载地址：https://go.hyper.ai/7KUwg

DAQUAR 是一个关于图像的人类问答的数据集。该数据集的图像来自于 NYU-Depth v2 数据集，内容都是关于室内场景的 RGBD 图像，其中 795 张用于训练，654 张用于测试。

COYO-700M 图像-文本对数据集

发布机构：Kakao Brain

预估大小：30.31 GB

发布时间：2022 年

下载地址：https://go.hyper.ai/eFJe9

COYO-700M 包含了 7.47 亿个图像文本对以及许多其他元属性，收集了 HTML 文档中许多信息丰富的替代文本及其相关图像对。

TDIUC 视觉问答数据集

发布机构：罗彻斯特理工学院

预估大小：37.97 GB

发布时间：2017 年

下载地址：https://go.hyper.ai/8Nweu

该数据集是一个视觉问答数据集。数据集包括来自 MS COCO 和视觉基因组数据集的 160 万个问题及 17 万张图像，可用于评估模型稳健性及推理能力。

Visual7W 视觉问答数据集

发布机构：斯坦福大学

预估大小：1.76 GB

发布时间：2016 年

下载地址：https://go.hyper.ai/ZnRQE

Visual7W 是一个图像内容理解的数据集，通过对图像区域的文字描述和互相之间的关联，进行视觉问答 (Visual Question Answering) 任务，数据集中不仅包含图像本身，还包括图像区域内容相关的问答。

KVQA 问答数据集

发布机构：海得拉巴国际信息技术学院

预估大小：84.45 GB

发布时间：2016 年

下载地址：https://go.hyper.ai/IYGFO

该数据集是一个关于问答的数据集。数据集包含手动验证的 18.3 万个问答对，涉及超过 1.8 万人和 2.4 万张图像。

CxC 图像字幕数据集

发布机构：Google

发布时间：2020 年

下载地址：https://go.hyper.ai/as1Fl

该数据集是一个图像字幕数据集，包含 247,315 个人工标记的标注。

图像生成教程

InstantID 个性化写真生成 Demo

在线运行：https://go.hyper.ai/Eq4zl

InstantID 是一个基于扩散模型的图像生成解决方案，能实现从单一参考图像到多样化风格化写真的快速生成。只需上传一张自拍，20 秒就能得到定制版 AI 写真。

ComfyUI InstantID 工作流在线教程

在线运行：https://go.hyper.ai/HSPr7

ComfyUI InstantID 工作流可以将普通的人像照片转换成具有高度个性化风格的艺术作品，在风格迁移过程中，算法会将一幅图像的内容与另一幅图像的风格相结合，生成一幅新的图像，既保留了原始图像的内容，又具有了另一幅图像的艺术风格。这种技术被广泛应用于艺术创作、图像处理和视觉效果等领域。

ComfyUI Stable Cascade 工作流教程

在线运行：https://go.hyper.ai/lJGLF

该教程为 AI 绘画 ComfyUI Stable Casecade 工作流使用教程，教程已经搭建了好环境，内置了 Stable Cascade 默认文生图工作流，直接将节点连接完成，简化使用流程，2 秒即可出图。Stable Cascade 建立在 Würstchen 架构之上，可以同时保持高质量输出和高效的推理速度。

更多 AIGC 教程，请访问：

https://hyper.ai/tutorials

以上就是HyperAI超神经为大家汇总的 10 个图像-文本对数据集和 3 个文本生成图像教程，如果你有想要收录 hyper.ai 官方网站的资源，也欢迎留言或投稿告诉我们哦！

另外，我们还建立了「Stable Diffusion 教程交流群」，欢迎小伙伴们入群探讨各类技术问题、分享应用效果~

扫描下方二维码添加神经星星微信（微信号：Hyperai01），备注「SD 教程交流群」，即可加入群聊。

最后推荐一个「创作者激励计划」，感兴趣的小伙伴扫码即可参与！

关于 HyperAI超神经 (hyper.ai)

HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区，致力于成为国内数据科学领域的基础设施，为国内开发者提供丰富、优质的公共资源，截至目前已经：

* 为 1200+ 公开数据集提供国内加速下载节点

* 收录 300+ 经典及流行在线教程

* 解读 100+ AI4Science 论文案例

* 支持 500+ 相关词条查询

* 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅：

https://hyper.ai/

数据集图像生成工作流 instantid 视觉问答 diffusion comfyui cad 个性化 vqa stable diffusion 多模态训练数据集 google 生成模型训练数据对话数据多样化风格 html 内容理解