视觉表示 - AIGC资讯

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

本文经自动驾驶之心公众号授权转载，转载请联系出处。从一个新颖的3D MLLM架构开始，该架构使用稀疏查询将视觉表示提升和压缩到3D，然后将其输入LLM。题目：OmniDrive: A Holistic LLM-Agent Framework for...

人工智能 2024-05-06 人工智能

914阅读

面对生成式AI的汹涌浪潮，很多朋友可能认为与其他靠写作为生的群体一样，记者极有可能被这种新兴技术所取代。毕竟目前各种成本低廉的AI工具，能够在短短几分钟内生成数千篇风格各异的文章。然而，相关研究表明，近四分之三的读者仍然更喜欢阅读由人类撰写的新闻内...

生成式AI 2024-03-27 人工智能

829阅读

Ren'Py 用人工智能生产内容！最近抖音上赵本山、范伟读英语、外国人讲故事……这些都是人工智能的视频获得百万阅读量！自己做漫画、自己做游戏吧！ Ren'Py是一款开源的视觉小说、冒险游戏、Galgame制作工具,可免费用于商业用途。 githu...

生成式AI 2024-02-28 人工智能

2296阅读

推荐基于稳定扩散(stable diffusion AI 模型开发的自动纹理工具： DreamTexture.js自动纹理化开发包 - NSDT 稳定扩散获得如此多关注的原因如果你还没有看过它：稳定扩散是一个文本到图像的生成模型，你可以输入...

大数据 2024-01-20 人工智能

925阅读

文章目录一、AIGC的理解二、对比学习三、解码器四、Mask解码器五、耦合蒸馏六、半耦合七、图像编码器和组合解码器的耦合优化一、AIGC的理解 AIGC指的是使用人工智能技术自动生成的各类数字内容,包括文本、图像、...

AIGC 2024-01-14 人工智能

904阅读

视频场景图生成（VidSGG）旨在识别视觉场景中的对象并推断它们之间的视觉关系。该任务不仅需要全面了解分散在整个场景中的每个对象，还需要深入研究它们在时序上的运动和交互。最近，来自中山大学的研究人员在人工智能顶级期刊IEEE T-IP上发表了一篇论文...

大数据 2024-01-13 人工智能

837阅读

获取高质量数据，已经成为当前大模型训练的一大瓶颈。前几天，OpenAI被《纽约时报》起诉，并要求索赔数十亿美元。诉状中，列举了GPT-4抄袭的多项罪证。甚至，《纽约时报》还呼吁摧毁几乎所有的GPT等大模型。一直以来，AI界多位大佬认为「合成数据」...

人工智能 2024-01-13 人工智能

819阅读

【新智元导读】最近，来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA，使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能，并在图片、视频的13个基准上达到先进的性能。这个结果表明，统一L...

AIGC 2023-11-23 人工智能

901阅读

AI 画图的著名公司 Stability AI，终于入局 AI 生成视频了。本周二，基于 Stable Diffusion 的视频生成模型 Stable Video Diffusion 来了，AI 社区马上开始了热议。很多人都表示「我们终于等到了」...

AIGC 2023-11-22 人工智能

819阅读

AI能理解搞笑视频笑点在哪里了。北大等团队开源视觉语言大模型Video-LLaVA，将图像和视频表示对齐到统一的视觉特征空间，在13个图片和视频基准上达到先进的性能。值得注意的是，Video-LLaVA在训练过程中没有使用成对的视频和图片数据，但...

人工智能 2023-11-21 人工智能

855阅读

AI能理解搞笑视频笑点在哪里了。 AI回答：这个视频之所以搞笑，在于一个小宝宝正坐在床上努力读书，但他显然还不会真正读书。他只是不停地指着书页上的各处，而摄影者则在背后笑他。小宝宝的这种尝试很有趣，因为他在尝试阅读一本对他而言过大的书，也看不懂里面的文...

大数据 2023-11-20 人工智能

775阅读