我们想知道使用我们的流数据集、Composer 和 MosaicML 云平台从头开始训练稳定扩散模型需要多少时间(和金钱)。我们的结果:13 天内我们将花费 79,000 个 A100 小时,总培训成本不到 160,000 美元。我们的工具不仅将时间和成本减少了 2.5 倍,而且还具有可扩展性和简单易用性。
这就是我们可以提供帮助的方式:在 MosaicML,我们可以更轻松地高效训练大型模型,使更多组织能够根据自己的数据训练自己的模型。如之前的博文所示,我们的StreamingDataset 库、我们的训练框架Composer和我们的MosaicML Cloud平台显着简化了训练大型语言模型(LLM) 的过程。对于这篇博文,我们使用相同的过程来衡量从头开始训练稳定扩散模型的时间和成本。我们估计的上限79,000 个 A100 小时,在我们的 MosaicML Cloud 平台上在 13 天内训练 Stable Diffusion v2 base,相当于总训练成本不到 160,000 美元。Stability AI模型卡中报告的时间和成本减少了 2.5 倍。除了节省时间和金钱之外,我们的 Streaming、Composer 和 MosaicML Cloud 工具还可以非常简单地在数百个 GPU 上设置和扩展 Stable Diffusion 训练,无需任何额外工作。我们用于此实验的代码是开源的,可以运行
时间和成本估算
下面的表 1和图 1说明了 Stable Diffusion V2 基础训练时间和成本估算如何随使用的 GPU 数量而变化。我们对 256 个 A100 的最终估计是 12.83 天的训练成本为 160,000 美元,比稳定扩散模型卡中报告的时间和成本减少了 2.5 倍。这些估计值是使用测量的吞吐量计算得出的,并假设对 29 亿个样本进行了训练。吞吐量是通过对最大标记长度