-
OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架
本文经自动驾驶之心公众号授权转载,转载请联系出处。 从一个新颖的3D MLLM架构开始,该架构使用稀疏查询将视觉表示提升和压缩到3D,然后将其输入LLM。 题目:OmniDrive: A Holistic LLM-Agent Framework for...
-
生成式AI如何改变记者的工作方式
面对生成式AI的汹涌浪潮,很多朋友可能认为与其他靠写作为生的群体一样,记者极有可能被这种新兴技术所取代。 毕竟目前各种成本低廉的AI工具,能够在短短几分钟内生成数千篇风格各异的文章。 然而,相关研究表明,近四分之三的读者仍然更喜欢阅读由人类撰写的新闻内...
-
【GitHub项目推荐--AIGC! 人工智能漫画生成器!漫画、冒险游戏、Galgame制作工具】【转载】
Ren'Py 用人工智能生产内容!最近抖音上赵本山、范伟读英语、外国人讲故事……这些都是人工智能的视频获得百万阅读量! 自己做漫画、自己做游戏吧! Ren'Py是一款开源的视觉小说、冒险游戏、Galgame制作工具,可免费用于商业用途。 githu...
-
stable diffusion为什么能用于文本到图像的生成
推荐基于稳定扩散(stable diffusion AI 模型开发的自动纹理工具: DreamTexture.js自动纹理化开发包 - NSDT 稳定扩散获得如此多关注的原因 如果你还没有看过它:稳定扩散是一个文本到图像的生成模型,你可以输入...
-
【计算机视觉 | 目标检测】术语理解9:AIGC的理解,对比学习,解码器,Mask解码器,耦合蒸馏,半耦合,图像编码器和组合解码器的耦合优化
文章目录 一、AIGC的理解 二、对比学习 三、解码器 四、Mask解码器 五、耦合蒸馏 六、半耦合 七、图像编码器和组合解码器的耦合优化 一、AIGC的理解 AIGC指的是使用人工智能技术自动生成的各类数字内容,包括文本、图像、...
-
视频场景图生成任务新SOTA!中山大学提出全新时空知识嵌入框架,登顶刊TIP'24
视频场景图生成(VidSGG)旨在识别视觉场景中的对象并推断它们之间的视觉关系。 该任务不仅需要全面了解分散在整个场景中的每个对象,还需要深入研究它们在时序上的运动和交互。 最近,来自中山大学的研究人员在人工智能顶级期刊IEEE T-IP上发表了一篇论文...
-
谷歌MIT最新研究证明:高质量数据获取不难,大模型就是归途
获取高质量数据,已经成为当前大模型训练的一大瓶颈。 前几天,OpenAI被《纽约时报》起诉,并要求索赔数十亿美元。诉状中,列举了GPT-4抄袭的多项罪证。 甚至,《纽约时报》还呼吁摧毁几乎所有的GPT等大模型。 一直以来,AI界多位大佬认为「合成数据」...
-
提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点
【新智元导读】最近,来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA,使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能,并在图片、视频的13个基准上达到先进的性能。这个结果表明,统一L...
-
Stable Video Diffusion来了,代码权重已上线
AI 画图的著名公司 Stability AI,终于入局 AI 生成视频了。 本周二,基于 Stable Diffusion 的视频生成模型 Stable Video Diffusion 来了,AI 社区马上开始了热议。 很多人都表示「我们终于等到了」...
-
最新!基于视觉方案的车辆速度、距离估计综述
本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文名称:Vision-based Vehicle Speed Estimation: A Survey 导读 在精确检测车速车距的方案中,视觉方案是非常具有挑战性的,但由于没有昂贵的距离传感器而大幅...
-
北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源
AI能理解搞笑视频笑点在哪里了。 北大等团队开源视觉语言大模型Video-LLaVA,将图像和视频表示对齐到统一的视觉特征空间,在13个图片和视频基准上达到先进的性能。 值得注意的是,Video-LLaVA在训练过程中没有使用成对的视频和图片数据,但...
-
北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点
AI能理解搞笑视频笑点在哪里了。 AI回答:这个视频之所以搞笑,在于一个小宝宝正坐在床上努力读书,但他显然还不会真正读书。他只是不停地指着书页上的各处,而摄影者则在背后笑他。小宝宝的这种尝试很有趣,因为他在尝试阅读一本对他而言过大的书,也看不懂里面的文...