当前位置:AIGC资讯 > 技术协作
-
扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略
Text-to-image(T2I)扩散模型在生成高清晰度图像方面显示出了卓越的能力,这一成就得益于其在大规模图像-文本对上的预训练。 这引发了一个自然的问题:扩散模型是否可以用于解决视觉感知任务? 近期,来自字节跳动和复旦大学的技术团队提出了一种简单...
-
AI解读视频张口就来?这种「幻觉」难题Vista-LLaMA给解决了
近年来,大型语言模型如 GPT、GLM 和 LLaMA 等在自然语言处理领域取得了显著进展,基于深度学习技术能够理解和生成复杂的文本内容。然而,将这些能力扩展到视频内容理解领域则是一个全新的挑战 —— 视频不仅包含丰富多变的视觉信息,还涉及时间序列的动态...
第一页
1
没有了