-
让AI更懂物理世界,人大北邮上海AI Lab等提出多模态分割新方法
让AI像人类一样借助多模态线索定位感兴趣的物体,有新招了! 来自人大高瓴GeWu-Lab、北邮、上海AI Lab等机构的研究人员提出Ref-AVS(Refer and Segment Objects in Audio-Visual Scenes,视听场景下...
-
如何高效微调多模态Transformers模型:从入门到实践指南
多模态大模型(Multimodal Large Models)是能够处理多种类型数据(如文本、图像、音频等)的机器学习模型。transformers 是当前多模态大模型中的一种重要架构。 目录 Transformers简介 多模态Transforme...
-
本地部署 Llama-3-EvoVLM-JP-v2
本地部署 Llama-3-EvoVLM-JP-v2 0. 引言 1. 关于 Llama-3-EvoVLM-JP-v2 2. 本地部署 2-0. 克隆代码 2-1. 安装依赖模块 2-2. 创建 Web UI 2-3.启动 Web UI 2-4...
-
ECCV2024|AIGC(图像生成,视频生成,3D生成等)相关论文汇总(附论文链接/开源代码)【持续更新】
ECCV2024|AIGC相关论文汇总(如果觉得有帮助,欢迎点赞和收藏) Awesome-ECCV2024-AIGC 1.图像生成(Image Generation/Image Synthesis Accelerating Diffusio...
-
【SD3】发布,送你3个ComfyUI工作流,轻松搞定AI绘画
这几天AI绘画界最轰动的消息莫过于Stable Diffusion 3(简称SD3)的发布。SD3是一个多模态的 Diffusion Transformer 模型,其在图像质量、排版、复杂提示理解和资源效率方面具有显著提升。 废话不多说,先给大家看看我使...
-
AIGC工具:IPAdapter和ControlNet 指导控制生成工具
ControlNet强调对生成过程的直接控制,如通过线条、边缘、形状等信息;而IPAdapter侧重于风格迁移和内容的间接引导。 IPAdapter 它专注于通过迁移图片风格来生成新的图像内容。IPAdapter的强项在于能够将一张图片的风格迁移到另...
-
【AIGC调研系列】全新的多模态小模型Phi-3-vision
全新的多模态小模型Phi-3-vision是微软在2024年推出的最新AI模型。Phi-3-vision是一个具有42亿参数的多模态模型,能够处理图像和文本数据,并对这些数据进行高效的推理和响应[12][13][14]。 Phi-3-vision特别适用...
-
Runway正式发布全新Gen3模型,AI视频的王,它回来了。
在AI视频被一众新秀,比如Sora、Luma、可灵等等占据注意力的时候,已经有人忘了AI视频领域统治了N久的王者,他叫Runway。 去年的11月份更新了一次Gen2模型模型,然后宣布他们要开始组团队开始进军世界模型之后。 他们就再无动静了。 一晃眼,将...
-
CVPR 2024|多模态场景感知,小红书高保真人体运动预测方法来了!
设想一下,你在家中准备起身,前往橱柜取东西。一个集成 SIF3D 技术的智能家居系统,已经预测出你的行动路线(路线通畅,避开桌椅障碍物)。当你接近橱柜时,系统已经理解了你的意图,柜门在你达到之前就已自动打开,无需手动操作。 视频中,左边为 3D 场景...
-
14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?
2023-2024年,以 GPT-4V、Gemini、Claude、LLaVA 为代表的多模态大模型(Multimodal LLMs)已经在文本和图像等多模态内容处理方面表现出了空前的能力,成为技术新浪潮。 然而,对于这些模型的评测多集中于语言上的任务,...
-
【AIGC调研系列】苹果MM1大模型与其他模型相比的优势和劣势
苹果MM1大模型与其他模型相比,具有以下优势和劣势: 优势: 多模态能力:MM1是基于大规模多模态预训练的,这意味着它能够处理和理解多种类型的数据(如文本、图像等),在上下文预测、多图像和思维链推理等方面表现出色[7][10]。 少样本学习能力:...
-
苹果研发多模态AI,这是研究人员迄今发现的结果
译者 | 布加迪 审校 | 重楼 如果我告诉你,在最近热议的多模态AI背后,苹果正在悄然酝酿一场革命,你会作何感想?苹果的一群研究人员一直在系统地研究如何构建功能最强大的多模态模型,揭露了质疑传统智慧的重要见解。现在他们让我们有机会一窥底层的细节。 他...
-
苹果大模型MM1杀入场:300亿参数、多模态、MoE架构,超半数作者是华人
今年以来,苹果显然已经加大了对生成式人工智能(GenAI)的重视和投入。此前在 2024 苹果股东大会上,苹果 CEO 蒂姆・库克表示,今年将在 GenAI 领域实现重大进展。此外,苹果宣布放弃 10 年之久的造车项目之后,一部分造车团队成员也开始转向...
-
LimSim++:多模态大模型在自动驾驶中的新舞台
本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文名称:LimSim++: A Closed-Loop Platform for Deploying Multimodal LLMs in Autonomous Driving 项目主页:https:...
-
Stable Diffusion 3技术报告出炉:揭露Sora同款架构细节
很快啊,“文生图新王”Stable Diffusion 3的技术报告,这就来了。 全文一共28页,诚意满满。 “老规矩”,宣传海报(⬇️)直接用模型生成,再秀一把文字渲染能力: 所以,SD3这比DALL·E 3和Midjourney v6都要强的文字...
-
Stability AI发布SD3技术报告 披露SD3更多细节
Stability AI 最近发布了他们最强的图片生成模型 Stable Diffusion3(SD3) 的技术报告,披露了 SD3的更多细节。据 Stability AI 所说,SD3在排版质量、美学质量和提示词理解上超过了目前所有的开源模型和商业模型,...
-
罕见!苹果开源图片编辑神器MGIE,要上iPhone?
拍张照片,输入文字指令,手机就开始自动修图? 这一神奇功能,来自苹果刚刚开源的图片编辑神器「MGIE」。 把背景中的人移除 在桌子上添加披萨 最近一段时间,AI 在图片编辑这一应用上取得了不小的进展。一方面,在 LLM 的基础上,多模态大模型(MLL...
-
GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评
近期,多模态大模型(LMMs)在视觉语言任务方面展示了令人印象深刻的能力。然而,由于多模态大模型的回答具有开放性,如何准确评估多模态大模型各个方面的性能成为一个迫切需要解决的问题。 目前,一些方法采用GPT对答案进行评分,但存在着不准确和主观性的问题。另...
-
华科大发布多模态大模型新基准 覆盖五大任务
近期,华中科技大学等机构发布了一项关于多模态大模型(LMMs)的全面评估新基准,旨在解决多模态大模型性能评估的问题。这项研究涉及了14个主流多模态大模型,包括谷歌Gemini、OpenAI GPT-4V等,覆盖了五大任务、27个数据集。然而,由于多模态大模...
-
多模态LLM多到看不过来?先看这26个SOTA模型吧
当前 AI 领域的关注重心正从大型语言模型(LLM)向多模态转移,于是乎,让 LLM 具备多模态能力的多模态大型语言模型(MM-LLM)就成了一个备受关注的研究主题。 近日,腾讯 AI Lab、京都大学和穆罕默德・本・扎耶德人工智能大学的一个研究团队发布...
-
更适合中文LMM体质的基准CMMMU来了:超过30个细分学科,12K专家级题目
近期,随着多模态大模型(LMM) 的能力不断进步,评估 LMM 性能的需求也日益增长。与此同时,在中文环境下评估 LMM 的高级知识和推理能力的重要性更加突出。 在这一背景下,M-A-P 开源社区、港科大、滑铁卢大学、零一万物等联合推出了面向中文大规模多...
-
多模态大模型,阿里通义千问能和GPT-4V掰手腕了
通义千问的图像推理能力,最近有了大幅提升。 2024年,大模型领域要卷什么? 如果没有思路的话,不妨看看各家大厂都在押注什么方向。 最近一段时间,先是 OpenAI 推出 GPT-4V,让大模型拥有了前所未有的图像语义理解能力。 谷歌随后跟上,发布的 G...
-
AIGC领域的多模态深度学习你知道多少?一文带你Get
Look!?我们的大模型商业化落地产品 ?更多AI资讯请??关注 Free三天集训营助教在线为您火热答疑??? 什么是多模态深度学习? 多模态深度学习(英文名:Multimodal Deep Learning 是人工智能(AI 的一个子领域...
-
RAG实战 7 - 使用llama_index实现多模态RAG
LLM之RAG实战(七)| 使用llama_index实现多模态RAG 文章目录 LLM之RAG实战(七)| 使用llama_index实现多模态RAG 一、多模态RAG 二、多模态LLM 三、多模态嵌入 四、多模态索引与检索 五、多...
-
扩散模型更懂复杂提示词!Pika北大斯坦福开源新框架,利用LLM提升理解力
Pika北大斯坦福联手,开源最新文本-图像生成/编辑框架! 无需额外训练,即可让扩散模型拥有更强提示词理解能力。 面对超长、超复杂提示词,准确性更高、细节把控更强,而且生成图片更加自然。 效果超越最强图像生成模型Dall·E 3和SDXL。 比如要求图片...
-
AI绘画与多模态原理解析:从CLIP到DALLE1/2、DALLE 3、Stable Diffusion、SDXL Turbo、LCM
前言 终于开写本CV多模态系列的核心主题:stable diffusion相关的了,为何执着于想写这个stable diffusion呢,源于三点 去年stable diffusion和midjourney很火的时候,就想写,因为经常被刷屏,但那会时...
-
使用CLIP和LLM构建多模态RAG系统
在本文中我们将探讨使用开源大型语言多模态模型(Large Language Multi-Modal 构建检索增强生成(RAG 系统。本文的重点是在不依赖LangChain或LLlama index的情况下实现这一目标,这样可以避免更多的框架依赖。 什么...
-
一文速览扩散模型优化过程:从DDPM到条件生成模型Stable Diffusion
文章目录 1、扩散模型简介 - Diffusion Model 2、最简单的扩散模型 - DDPM 前向加噪过程 逆向去噪过程 训练与推理流程 模型优缺点 3、减少扩散模型的采样步骤 - DiffusionGAN 分析高斯分布、采样步长...
-
AI平台:Runway - Advancing creativity with artificial intelligence.
Runway - Advancing creativity with artificial intelligence.ResearchProductStudiosCustomersPricingCompanyLog inSign Up — It’s Fre...
-
文心一言接入Promptulate,开发复杂LLM应用程序
简介 最近在尝试将文心一言的LLM能力接入Promptulate,故写了一篇博客记录一下,Promptulate 是 Promptulate AI 旗下的大语言模型自动化与应用开发框架,旨在帮助开发者通过更小的成本构建行业级的大模型应用,其包含了LLM...
-
AIGC盛行,带你轻松调用开发
文章目录 前言 一、?AIGC简介 二、?开通体验 开通模型获取API-KEY 三、?基于java实现调用 1.设置API-KEY 2.体验大语言模型 多轮对话演示 补充流式输出 3.体验通义千问VL 使用官方提供照片 本地文件 多轮对...
-
LLM之RAG实战(七)| 使用llama_index实现多模态RAG
一、多模态RAG OpenAI开发日上最令人兴奋的发布之一是GPT-4V API(https://platform.openai.com/docs/guides/vision)的发布。GPT-4V是一个多模态模型,可以接收文本/图像,并可以...
-
扳回一局!Gemini-Pro多模态能力和GPT-4V不相上下
近期的Gemini-Pro评测报告显示其在多模态领域取得了显著的进展,与GPT-4V不相上下,甚至在某些方面表现更为出色。首先,在多模态专有基准MME上的综合表现中,Gemini-Pro以1933.4的高分超越了GPT-4V,展现出在感知和认知方面的全面优...
-
2023 年最重要的 3 项人工智能创新:多模态 AI、宪法 AI 和文本转视频技术
2023 年,人工智能(AI)领域见证了重大进展,不仅公众对 AI 有了更深的理解,政府也开始认真对待 AI 风险。本年度的发展不仅是新技术和理念的出现,更是长期孕育后的集中爆发。 以下是过去一年中人工智能领域最重要的三项创新: 多模态 AI(Mul...
-
【文生图】Stable Diffusion XL 1.0模型Full Fine-tuning指南(U-Net全参微调)
文章目录 前言 重要教程链接 以海报生成微调为例 总体流程 数据获取 POSTER-TEXT AutoPoster CGL-Dataset PKU PosterLayout PosterT80K Movie & TV Series...
-
下一代自动驾驶系统,少不了大模型,系统调研来了
随着大语言模型 (LLM 和视觉基础模型 (VFM 的出现,受益于大模型的多模态人工智能系统有潜力像人类一样全面感知现实世界、做出决策。在最近几个月里,LLM 已经在自动驾驶研究中引起了广泛关注。尽管 LLM 具有巨大潜力,但其在驾驶系统中的关键挑战...
-
扩散模型训练太难?来看看Meta AI最新提出的KNN-Diffusion
原文链接:https://www.techbeat.net/article-info?id=4323 作者:seven_ 最近AIGC社区中有趣的工作可谓是层出不穷,这都得益于扩散模型(Diffusion Models)的成功,扩散模型作为生成式AI...
-
【Video-LLaMA】增强LLM对视频内容的理解
Paper:《Video-LLaMA : An Instruction-tuned Audio-Visual Language Model for Video Understanding》 Authors: Hang Zhang, Xin Li, Lid...
-
LLM-SFT,新微调数据集-MWP-Instruct(多步计算 + 一、二元方程),微调Bloom, ChatGLM, LlaMA(支持QLoRA, TensorBoardX)
LLM-SFT 中文大模型微调(LLM-SFT , 支持模型(ChatGLM, LlaMA, Bloom , 支持(LoRA, QLoRA, DeepSpeed, UI, TensorboardX , 支持(微调, 推理, 测评, 接口 等. 项目...
-
【多模态】5、BLIP | 统一理解与生成任务 为图像生成更高质量的文本描述
文章目录 一、背景 二、方法 2.1 模型结构 2.2 Pre-training Objectives 2.3 CapFilt 三、效果 3.1 训练细节 3.2 CapFilt 的效果 3.3 样本多样性是文本合成器的关键 3.4 参数...
-
国内AI顶会CPAL论文录用结果放出!共计30篇Oral和60篇Spotlight
大家可能还记得,今年五月份公布的,将由国内大佬马毅和沈向洋牵头办的全新首届AI学术会议CPAL。 这里我们再介绍一下CPAL到底是个什么会,以防有的读者时间太久有遗忘—— CPAL(Conference on Parsimony and Learning...
-
文本生成图像工作简述4--扩散模型、自回归模型、生成对抗网络的对比调研
基于近年来图像处理和语言理解方面的技术突破,融合图像和文本处理的多模态任务获得了广泛的关注并取得了显著成功。 文本生成图像(text-to-image)是图像和文本处理的多模态任务的一项子任务,其根据给定文本生成符合描述的真实图像,具有巨大的应用潜力,如...
-
最强的GPT-4V都考不过?基于大学考试的测试基准MMMU诞生了
目前最好的大型多模态模型 GPT-4V 与大学生谁更强?我们还不知道,但近日一个新的基准数据集 MMMU 以及基于其的基准测试或许能给我们提供一点线索,如下排行榜所示。 看起来,GPT-4V 在一些科目上已经强过挂科的大学生了。当然这个数据集的创造目的...
-
微软亚洲研究院韦福如:人工智能基础创新的第二增长曲线
从人工智能的发展历程来看,GPT 系列模型(例如 ChatGPT 和 GPT-4)的问世无疑是一个重要的里程碑。由它所驱动的人工智能应用已经展现出高度的通用性和可用性,并且能够覆盖多个场景和行业 —— 这在人工智能的历史上前所未有。 然而,人工智能的科研...
-
微软用GPT-4V解读长视频 MM-Vid能看懂电影还能讲给盲人听
近期,微软Azure AI发布了MM-Vid,这是一项结合GPT-4V与专用工具的创新,致力于解读长视频并为视障人士提供更好的体验。 目前,人工智能在长视频理解领域所面临的复杂挑战,包括分析多个片段、提取不同信息源、实时处理动态环境等。而MM-Vid的工作...
-
微软用GPT-4V解读视频,看懂电影还能讲给盲人听,1小时不是问题
世界各地的人们每天都会创造大量视频,包括用户直播的内容、短视频、电影、体育比赛、广告等等。 视频是一种多功能媒介,可以通过文本、视觉和音频等多种模态传递信息和内容。如果可以开发出能学习多模态数据的方法,就能帮助人们设计出具备强大能力的认知机器 —— 它不...
-
【原创】用 VisualGLM 进行AIGC多模识别和内容生成
最近几个月,整个AI行业的LLM(大语言模型)蓬勃发展,除了过去传统的纯文字的多模态能力的视觉语言模型,如 GPT-4,ImageBind等表现令人印象深刻。 ChatGLM-6B是中文用户使用非常舒服的一个开源中文LLM。2023年5月17日,智谱...
-
多模态音乐AI框架Video2Music 为视频生成情感相符的音乐
近日,一款创新的人工智能多模态音乐生成框架Video2Music引起了广泛关注。该框架利用独特的数据集和经过用户研究验证的转换器模型,能够为视频生成情感上相符的音乐,填补了这一领域的空白。据悉,Video2Music的GitHub Repo已经发布,为研究...
-
多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟
视觉幻觉是常见于多模态大语言模型(Multimodal Large Language Models, MLLMs)的一个典型问题。 简单来说就是:模型输出的描述与图片内容不相符。 下图中体现了两种幻觉,红色部分错误地描述了狗的颜色(属性幻觉),蓝色部分描...
-
为何GPT-4P容易受到多模态提示注入图像攻击?
OpenAI新的GPT-4V版本支持图像上传后,带来了一条全新的攻击途径,使大型语言模型(LLM)容易受到多模态注入图像攻击。攻击者可以在图像中嵌入命令、恶意脚本和代码,随后模型会遵从行事。 多模态提示注入图像攻击可以泄露数据、重定向查询、生成错误信息,...