视觉编码器 - AIGC资讯

大模型——LLaVA和LLaMA的介绍和区别

LLaVA和LLaMA是两个不同的模型架构，它们的设计目的和应用领域有所不同： LLaMA（Large Language Model Meta AI）简介：LLaMA是由Meta AI推出的一系列大规模语言模型（Large Language M...

生成式AI 2024-09-27 人工智能

2039阅读

【AIGC】MimicMotion：姿态引导的高质量人体运动视频生成技术

资源论文：https://arxiv.org/pdf/2406.19680 github:https://github.com/Tencent/MimicMotion comfyui:https://github.com/kijai/ComfyUI...

生成式AI 2024-09-19 人工智能

1528阅读

AIGC实战——多模态模型Flamingo

AIGC实战——多模态模型Flamingo 0. 前言 1. Flamingo 架构 2. 视觉编码器 3. Perceiver 重采样器 4. 语言模型 5. FIamingo 应用小结系列链接 0. 前言我们已经学习了文...

AIGC 2024-09-18 人工智能

1569阅读

CoralStyleCLIP（图像编辑的协同优化区域）个人理解

一、CoralStyleCLIP介绍论文：CoralStyleCLIP: Co-optimized Region and Layer Selection for Image Editing 论文内容：本文提出了CoralStyleCLIP，它在Sty...

生成式AI 2024-09-05 人工智能

943阅读

专用于理解游戏场景的开源大模型-VideoGameBunny

大模型在游戏开发领域扮演了重要角色，从AI机器人生成到场景搭建覆盖各个领域。但在游戏场景理解、图像识别、内容描述方面很差。为了解决这些难题，加拿大阿尔伯塔的研究人员专门开源了一款针对游戏领域的大模型VideoGameBunny（以下简称“VGB”）。 V...

AIGC 2024-09-03 人工智能

1010阅读

【技术追踪】SDSeg：医学图像的 Stable Diffusion 分割（MICCAI-2024）

这医学图像分割领域啊，终究还是被 Stable Diffusion 闯进去了~ SDSeg：第一个基于 Stable Diffusion 的 latent 扩散医学图像分割模型，在五个不同医学影像模态的基准数据集上超越了现有的最先进方法~ 论...

大数据 2024-07-24 人工智能

1740阅读

Diffusion【1】：SDSeg——基于Stable Diffusion的单步扩散分割！

文章目录前言 Abstract Introduction Methods Latent Estimation Concatenate Latent Fusion Trainable Vision Encoder Experiment D...

大数据 2024-07-16 人工智能

1168阅读

Llama 3-V：以100倍小的模型和500美元匹敌GPT4-V视觉模型

概述 Llama3 的横空出世震惊了世界，它在几乎所有基准测试中都超越了 GPT-3.5，并在一些方面超越了 GPT-4。随后，GPT-4o 的出现凭借其多模态能力再次夺回了王座。今天，我们发布了一个改变现状的产品：Llama3-V，这是首个基于 Ll...

AIGC 2024-06-25 人工智能

1269阅读

Llama 3-V: 比GPT4-V小100倍的SOTA

大模型技术论文不断，每个月总会新增上千篇。本专栏精选论文重点解读，主题还是围绕着行业实践和工程量产。若在某个环节出现卡点，可以回到大模型必备腔调重新阅读。而最新科技（Mamba，xLSTM,KAN）则提供了大模型领域最新技术跟踪。若对于如果构建生成级别的A...

人工智能 2024-06-25 人工智能

1150阅读

AIGC |「多模态模型」系列之OneChart：端到端图表理解信息提取模型

论文标题: OneChart: Purify the Chart Structural Extraction via One Auxiliary Token 论文作者: Jinyue Chen, Lingyu Kong, Haoran Wei, Chen...

人工智能 2024-06-18 人工智能

1147阅读

大模型理解复杂表格，字节&中科大出手了

只要一个大模型，就能解决打工人遇到的表格难题! 字节联手中科大推出了一款统一表格理解大模型，可以以用户友好的方式解决多种表格理解任务。同时提出的还有一套开源测试基准，可以更好地评估模型在表格理解任务上的表现。该模型名为TabPedia，利用多模态大模...

人工智能 2024-06-15 人工智能

939阅读

【AIGC调研系列】DeepSeek模型的优势和劣势

DeepSeek模型的优势主要包括：多模态能力：DeepSeek-VL能够在不丢失语言能力的情况下融入多模态能力，能够处理包括逻辑图、网页、公式识别、科学文献、自然图像等多种类型的数据，显示出其强大的通用多模式理解能力[1]。高分辨率图片输入：...

人工智能 2024-06-08 人工智能

6318阅读

被作者删库的Llama 3-V原文再现！效果匹敌GPT4-V，训练费用暴降，区区不到500 美元，尺寸小100 倍，如何做到的

编译 | 言征作者 | Aksh Garg 备注：发稿前作者已经删掉原文出品 | 51CTO技术栈（微信号：blog51cto）近日，一款Llama3V最近被“先红后黑”的出了圈。作为全球顶尖研究学府的团队，身陷“抄袭”中国大模型的泥潭后，火速删稿...

生成式AI 2024-06-04 人工智能

962阅读

具身智能的视觉-语言-动作模型：综述

本文经自动驾驶之心公众号授权转载，转载请联系出处。 24年5月论文“A Survey on Vision-Language-Action Models for Embodied AI”。深度学习已在计算机视觉、自然语言处理和强化学习等许多领域取得了显著...

人工智能 2024-06-04 人工智能

1503阅读

MonoDETRNext：下一代准确高效的单目3D检测方法！

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解基于单目视觉的3D目标检测在各个领域都至关重要，但现有方法在准确性和计算效率方面面临着重大挑战。在2D检测和深度估计的成功策略的基础上，本文提出了MonoDETRNe...

人工智能 2024-05-30 人工智能

1062阅读

【AIGC调研系列】CogVLM2:第二代视觉大模型

CogVLM2是智谱AI推出的新一代多模态大模型，继承并优化了上一代模型的经典架构。CogVLM2采用了一个拥有50亿参数的强大视觉编码器，并创新性地在大语言模型中整合了一个70亿参数的视觉专家模块[1]。这一设计使得CogVLM2在视觉和语言理解方面实现...

人工智能 2024-05-28 人工智能

1668阅读

模块化重构LLaVA，替换组件只需添加1-2个文件，开源TinyLLaVA Factory来了

TinyLLaVA 项目由清华大学电子系多媒体信号与智能信息处理实验室 (MSIIP 吴及教授团队和北京航空航天大学人工智能学院黄雷老师团队联袂打造。清华大学 MSIIP 实验室长期致力于智慧医疗、自然语言处理与知识发现、多模态等研究领域。北航团队长期...

人工智能 2024-05-27 人工智能

982阅读

通用世界模型问世：不学习就能生成新领域视频，可实时控制

随着 OpenAI 今年 2 月发布 Sora，世界模型（World Model）再次成为了 AI 领域的热门。世界模型，即通过预测未来的范式对数字世界和物理世界进行理解，一直以来被认为是通往通用人工智能（AGI）的关键路径之一，与当前大模型推崇的智能...

人工智能 2024-05-24 人工智能

972阅读

HuggingFace教你怎样做出SOTA视觉模型

前有OpenAI的GPT-4o，后有谷歌的系列王炸，先进的多模态大模型接连炸场。其他从业者在震撼之余，也再次开始思考怎么追赶这些超级模型了。刚好在这时，HuggingFace和法国索邦大学的一篇论文，总结出了构建视觉大模型的关键经验，给开发者指明了一...

生成式AI 2024-05-17 人工智能

919阅读

LLM全搞定！OmniDrive：集3D感知、推理规划于一体（英伟达最新）

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解这篇论文致力于解决当前多模态大语言模型 (MLLMs 在自动驾驶应用中存在的关键挑战，尤其是将MLLMs从2D理解扩展到3D空间的问题。由于自动驾驶车辆 (AVs ...

人工智能 2024-05-09 人工智能

1016阅读

微调和量化竟会增加越狱风险！Mistral、Llama等无一幸免

大模型又又又被曝出安全问题！近日，来自Enkrypt AI的研究人员发表了令人震惊的研究成果：量化和微调竟然也能降低大模型的安全性！论文地址：https://arxiv.org/pdf/2404.04392.pdf 在作者的实际测试中，Mistra...

人工智能 2024-05-07 人工智能

840阅读

陈巍：LLaMA-2的多模态版本架构与训练详解（收录于GPT-4/ChatGPT技术与产业分析）

陈巍：2023年9月，Meta的研究人员推出了AnyMAL（任意模态增强语言模型，Any-Modality Augmented Language Model）。该模型能够理解多种模态信号并生成文本回应，即多模态输入，单模态输出。输入的模态可包括图像、视频、...

AIGC 2024-04-10 人工智能

1022阅读

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ GPT-4V 的推出引爆了多模态大模型的研究。GPT-4V 在包括多模态问答、推理、交互在内的多个领域都展现了出色的能力，成为如今最领先...

大数据 2024-04-07 人工智能

853阅读

上海交大新框架解锁CLIP长文本能力，多模态生成细节拿捏，图像检索能力显著提升

CLIP长文本能力被解锁，图像检索任务表现显著提升！一些关键细节也能被捕捉到。上海交大联合上海AI实验室提出新框架Long-CLIP。 △棕色文本为区分两张图的关键细节 Long-CLIP在保持CLIP原始特征空间的基础上，在图像生成等下游任务中即插...

生成式AI 2024-04-01 人工智能

983阅读

HPT官网体验入口 HyperGAI多模态语言开源模型框架免费使用地址

HPT是HyperGAI研究团队推出的新型多模态大型语言模型框架。它具有高效且可扩展地训练大型多模态基础模型的能力，能够理解包括文本、图像、视频等多种输入模态。HPT框架不仅可以从头开始训练，还可以通过现有的预训练视觉编码器和/或大型语言模型进行高效适配。...

大数据 2024-03-20 人工智能

936阅读

全球首个基于大语言模型的自动驾驶语言控制模型

Arxiv论文链接：https://arxiv.org/abs/2312.03543项目主页：https://github.com/Petrichor625/Talk2car_CAVG 近年来，工业界和学术界都争先恐后地研发全自动驾驶汽车（AVs）。尽...

人工智能 2024-03-19 人工智能

1046阅读

苹果大模型MM1入场：参数达到300亿超半数作者是华人

苹果公司最新发布了一款名为MM1的大型多模态基础模型，拥有300亿参数，采用了MoE架构，并且超过一半的作者是华人。该模型在多模态领域具有重要意义，可能预示着苹果未来推出与此相关的产品。今年以来，苹果明显加大了对生成式人工智能（GenAI）领域的投入，这...

生成式AI 2024-03-15 人工智能

871阅读

苹果大模型MM1杀入场：300亿参数、多模态、MoE架构，超半数作者是华人

今年以来，苹果显然已经加大了对生成式人工智能（GenAI）的重视和投入。此前在 2024 苹果股东大会上，苹果 CEO 蒂姆・库克表示，今年将在 GenAI 领域实现重大进展。此外，苹果宣布放弃 10 年之久的造车项目之后，一部分造车团队成员也开始转向...

大数据 2024-03-15 人工智能

915阅读

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

【新智元导读】谷歌在语言和声控计算机界面的漫长道路上又迈出了重要一步。最新ScreenAI视觉语言模型，能够完成各种屏幕QA问答、总结摘要等任务。每个人想要的大模型，是真·智能的那种...... 这不，谷歌团队就做出来了一个强大的「读屏」AI。研究人员...

生成式AI 2024-03-05 人工智能

890阅读

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA

AI视频模型Sora爆火之后，Meta、谷歌等大厂纷纷下场做研究，追赶OpenAI的步伐。最近，来自谷歌团队的研究人员提出了一种通用视频编码器——VideoPrism。它能够通过单一冻结模型，处理各种视频理解任务。图片论文地址：https://a...

大数据 2024-02-26 人工智能

888阅读

基于LLaVA开源模型打造视频聊天助手

简介大型语言模型已经证明自己是一项革命性的技术。目前，人们已经开发出了许多基于大型语言模型功能的应用程序，而且预计很快还会有更多的应用程序问世。大型语言模型最有趣的应用之一是将其部署为智能助手，它们能够帮助人类用户完成各种任务。人们已经能够通过指令微...

AIGC 2024-02-15 人工智能

1008阅读

LLaVA：GPT-4V(ision) 的开源替代品

LLaVA（大型语言和视觉助理）（链接：：https://llava-vl.github.io/）是一个很有前途的开源生成式人工智能模型，它复制了OpenAI GPT-4在图像转换方面的一些功能。用户可以将图像添加到LLaVA聊天对话中，允许讨论这些图像...

生成式AI 2024-02-06 人工智能

1072阅读

罕见！苹果开源图片编辑神器MGIE，要上iPhone?

拍张照片，输入文字指令，手机就开始自动修图？这一神奇功能，来自苹果刚刚开源的图片编辑神器「MGIE」。把背景中的人移除在桌子上添加披萨最近一段时间，AI 在图片编辑这一应用上取得了不小的进展。一方面，在 LLM 的基础上，多模态大模型（MLL...

AIGC 2024-02-05 人工智能

930阅读

LLaMA模型指令微调字节跳动多模态视频大模型 Valley 论文详解

Valley: Video Assistant with Large Language model Enhanced abilitY 大家好，我是卷了又没卷，薛定谔的卷的AI算法工程师「陈城南」~ 担任某大厂的算法工程师，带来最新的前沿AI知识和工具...

大数据 2024-02-03 人工智能

1065阅读

年龄两岁，教龄一年半：婴儿AI训练师登上Science

在公开采访中，图灵奖得主 Yann LeCun 多次提到，现在的 AI 模型和人类婴儿相比，学习效率实在是太低了。那么，如果让一个 AI 模型去学习婴儿头戴摄像头拍到的东西，它能学到什么？最近，Science 杂志上的一篇论文进行了初步尝试。研究发现，...

大数据 2024-02-02 人工智能

823阅读

GPT-4V只能排第二！华科大等发布多模态大模型新基准：五大任务14个模型全面测评

近期，多模态大模型（LMMs）在视觉语言任务方面展示了令人印象深刻的能力。然而，由于多模态大模型的回答具有开放性，如何准确评估多模态大模型各个方面的性能成为一个迫切需要解决的问题。目前，一些方法采用GPT对答案进行评分，但存在着不准确和主观性的问题。另...

大数据 2024-02-02 人工智能

978阅读

菜鸟初进stable diffusion

不知道是不是玩novelai被boss看到了，推荐了我学stable diffusion 扩散模型 DALL E Midjourney stable diffusion latent diffusion 说是改进点在于“给输入图片压缩降低维度，...

生成式AI 2024-01-30 人工智能

853阅读

stable diffusion模型训练时数据量

文生图模型之Stable Diffusion - 知乎通向AGI之路码字真心不易，求点赞！ https://zhuanlan.zhihu.com/p/6424968622022年可谓是 AIGC（AI Generated Content）元年，上半年有文生...

大数据 2024-01-24 人工智能

2172阅读

AI作画的背后是怎么一步步实现的？一文详解AI作画算法原理+性能评测

前言 “AI作画依赖于多模态预训练，实际上各类作画AI模型早已存在，之所以近期作品质量提升很多，可能是因为以前预训练没有受到重视，还达不到媲美人类的程度，但随着数据量、训练量的增多，最终达到了现在呈现的效果。”远在AI作画还没有爆火之前，深度学习就已经...

生成式AI 2024-01-24 人工智能

1127阅读

GPT-4V惨败！CV大神谢赛宁新作：V*重磅「视觉搜索」算法让LLM理解力逼近人类

Sam Altman最近在世界经济论坛上发言，称达到人类级别的AI很快就会降临。但是，正如LeCun一直以来所言，如今的AI连猫狗都不如。现在看来的确如此。 GPT-4V、LLaVA等多模态模型图像理解力足以让人惊叹。但是，它们并非真的能够做的面面俱到。...

大数据 2024-01-21 人工智能

893阅读

AI绘画与多模态原理解析：从CLIP到DALLE1/2、DALLE 3、Stable Diffusion、SDXL Turbo、LCM

前言终于开写本CV多模态系列的核心主题：stable diffusion相关的了，为何执着于想写这个stable diffusion呢，源于三点去年stable diffusion和midjourney很火的时候，就想写，因为经常被刷屏，但那会时...

生成式AI 2024-01-19 人工智能

3043阅读

马毅LeCun谢赛宁曝出多模态LLM重大缺陷！开创性研究显著增强视觉理解能力

Sam Altman在各种场合都提到，大语言模型的多模态能力，是未来AI技术能够造福人类的最亟待突破的领域。那么现在在多模态大模型的视觉功能能否达到与语言功能匹配的水平？当前多模态模型取得的进步很大程度上归功于大语言模型（LLM）的推理能力。但在视...

AIGC 2024-01-18 人工智能

1009阅读

ConvNet与Transformer谁更强？Meta评测4个领先视觉模型，LeCun转赞

如何根据特定需求选择视觉模型？ ConvNet/ViT、supervised/CLIP模型，在ImageNet之外的指标上如何相互比较？来自MABZUAI和Meta的研究人员发表的最新研究，在「非标准」指标上全面比较了常见的视觉模型。论文地址：ht...

生成式AI 2024-01-18 人工智能

851阅读

谷歌MIT最新研究证明：高质量数据获取不难，大模型就是归途

获取高质量数据，已经成为当前大模型训练的一大瓶颈。前几天，OpenAI被《纽约时报》起诉，并要求索赔数十亿美元。诉状中，列举了GPT-4抄袭的多项罪证。甚至，《纽约时报》还呼吁摧毁几乎所有的GPT等大模型。一直以来，AI界多位大佬认为「合成数据」...

人工智能 2024-01-13 人工智能

819阅读

AI视野：通义千问上线通义舞王；斯坦福炒虾机器人爆火；Midjourney艺术家数据库泄露；Meta发布AI调试工具HawkEye；小冰大模型获备案

新鲜AI产品点击了解：https://top.aibase.com/ ???AI应用通义千问上线通义舞王阿里云通义千问APP近日上线了一项名为“通义舞王”的免费功能，用户只需在APP内输入相应口令并上传照片，系统即可生成个性化的舞蹈视频。 Meta发...

生成式AI 2024-01-04 人工智能

835阅读

Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于视频理解的指令调谐视听语言

1.摘要我们提出了一个多模态框架Video-LLaMA1，它使大型语言模型(LLM 能够理解视频中的视觉和听觉内容。视频-来自冻结的预训练视频和音频编码器和冻结的LLM的美洲驼引导跨模式训练。不像以前的工作，补充线性最小二乘法只处理视觉或听觉信号...

人工智能 2023-12-21 人工智能

1131阅读

随意指定CLIP关注区域！上交复旦等发布Alpha-CLIP：同时保持全图+局部检测能力

CLIP是目前最流行的视觉基座模型，其应用场景包括但不限于：与LLM大语言模型结合成为视觉多模态大模型；作为图像生成(Stable Diffusion 、点云生成(Point-E 的condition model，实现image-to-3D；用于...

生成式AI 2023-12-13 人工智能

1066阅读

【Video-LLaMA】增强LLM对视频内容的理解

Paper:《Video-LLaMA : An Instruction-tuned Audio-Visual Language Model for Video Understanding》 Authors: Hang Zhang, Xin Li, Lid...

生成式AI 2023-12-13 人工智能

1281阅读

LLaMA Adapter和LLaMA Adapter V2

LLaMA Adapter论文地址： https://arxiv.org/pdf/2303.16199.pdf LLaMA Adapter V2论文地址： https://arxiv.org/pdf/2304.15010.pdf LLaMA Ada...

人工智能 2023-12-10 人工智能

1073阅读

GTA6预告片播放过亿，AI三巨头也能秒变GTA匪帮

GTA 新出的游戏预告片看了吗？据说，这个预告片已经破了三项吉尼斯世界纪录，观看次数已经破亿。但如果告诉你，AI 三巨头也可以成为 GTA 里的人物，你还能认出他们吗？ AI 三巨头：Yann LeCun、Geoffrey Hinton 和 Yos...

生成式AI 2023-12-08 人工智能

932阅读