每日AIGC最新进展(6)：视觉一致插图序列生成、阿里巴巴电商人物产品互动图生成、Text-to-Vector生成、多视图扩散模型3D重建

Diffusion Models专栏文章汇总：入门与实战

Generating Coherent Sequences of Visual Illustrations for Real-World Manual Tasks

http://arxiv.org/abs/2405.10122v1

本文提出了一种新方法，用于生成与现实世界中的手动任务（如食谱和DIY指南）相一致的视觉插图序列。这些任务通常包含多步骤指令，而现有的大型视觉/语言模型（LVLMs）在生成与文本步骤说明相匹配的图像序列方面存在挑战。关键在于生成的每个图像不仅要准确传达步骤说明中的行动，还要与序列中之前的图像在视觉上保持一致，以避免混淆用户。

为了解决这一问题，研究者提出了一种结合潜在扩散模型（LDM）和大型语言模型（LLM）

语言模型 llm 大型语言模型扩散模型潜在扩散模型 diy lms diffusion lvlms 研究者 arxiv