Diffusion Models专栏文章汇总:入门与实战
Generating Coherent Sequences of Visual Illustrations for Real-World Manual Tasks
http://arxiv.org/abs/2405.10122v1
本文提出了一种新方法,用于生成与现实世界中的手动任务(如食谱和DIY指南)相一致的视觉插图序列。这些任务通常包含多步骤指令,而现有的大型视觉/语言模型(LVLMs)在生成与文本步骤说明相匹配的图像序列方面存在挑战。关键在于生成的每个图像不仅要准确传达步骤说明中的行动,还要与序列中之前的图像在视觉上保持一致,以避免混淆用户。
为了解决这一问题,研究者提出了一种结合潜在扩散模型(LDM)和大型语言模型(LLM)