当前位置:AIGC资讯 > AIGC > 正文

每日AIGC最新进展(6):视觉一致插图序列生成、阿里巴巴电商人物产品互动图生成、Text-to-Vector生成、多视图扩散模型3D重建

Diffusion Models专栏文章汇总:入门与实战

Generating Coherent Sequences of Visual Illustrations for Real-World Manual Tasks

http://arxiv.org/abs/2405.10122v1

本文提出了一种新方法,用于生成与现实世界中的手动任务(如食谱和DIY指南)相一致的视觉插图序列。这些任务通常包含多步骤指令,而现有的大型视觉/语言模型(LVLMs)在生成与文本步骤说明相匹配的图像序列方面存在挑战。关键在于生成的每个图像不仅要准确传达步骤说明中的行动,还要与序列中之前的图像在视觉上保持一致,以避免混淆用户。

为了解决这一问题,研究者提出了一种结合潜在扩散模型(LDM)和大型语言模型(LLM)

更新时间 2024-06-07