多模态大语言模型

【AIGC】Kolors:快手开源的文生图大模型

GitHub：GitHub - Kwai-Kolors/Kolors: Kolors Team 论文：Kolors/imgs/Kolors_paper.pdf at master · Kwai-Kolors/Kolors · GitHub comfyu...

生成式AI 2024-10-02 人工智能

1745阅读

最强终端部署的多模态MiniCPM-V模型部署分享（不看后悔）

MiniCPM-V模型是一个强大的端侧多模态大语言模型，专为高效的终端部署而设计。目前该模型有MiniCPM-V 1.0、MiniCPM-V 2.0和MiniCPM-Llama3-V 2.5版本。 MiniCPM-V 1.0模型：该模型系列第一个版本...

AIGC 2024-08-24 人工智能

2200阅读

迈向『闭环』| PlanAgent：基于MLLM的自动驾驶闭环规划新SOTA！

本文经自动驾驶之心公众号授权转载，转载请联系出处。中科院自动化所深度强化学习团队联合理想汽车等提出了一种新的基于多模态大语言模型MLLM的自动驾驶闭环规划框架—PlanAgent。该方法以场景的鸟瞰图和基于图的文本提示为输入，利用多模态大语言模型的多...

大数据 2024-06-05 人工智能

1184阅读

斯坦福爆火Llama3-V竟抄袭国内开源项目，作者火速删库

在 GPT-4o 出世后，Llama3 的风头被狠狠盖过。GPT-4o 在图像识别、语音理解上卓越的性能展现了它强大多模态能力。开源领域的领头羊 Llama3 曾在几乎所有基准测试中都超越了 GPT-3.5，甚至在某些方面超越了 GPT-4。这次就要闷声...

AIGC 2024-06-03 人工智能

846阅读

腾讯混元文生图大模型宣布开源：首个中文原生DiT架构

今日，腾讯旗下引人注目的混元文生图大模型（混元DiT）宣布全面开源，这一重要举措标志着人工智能领域的又一里程碑。该模型已在Hugging Face和Github平台上发布，包含完整的模型权重、推理代码和算法，面向全球的企业与个人开发者免费开放商用。腾讯混...

生成式AI 2024-05-14 人工智能

867阅读

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

本文经自动驾驶之心公众号授权转载，转载请联系出处。从一个新颖的3D MLLM架构开始，该架构使用稀疏查询将视觉表示提升和压缩到3D，然后将其输入LLM。题目：OmniDrive: A Holistic LLM-Agent Framework for...

人工智能 2024-05-06 人工智能

915阅读

颜水成挂帅，奠定「通用视觉多模态大模型」终极形态！一统理解/生成/分割/编辑

近日，颜水成教授团队联合发布并开源了Vitron通用像素级视觉多模态大语言模型。项...

大数据 2024-04-25 人工智能

1022阅读

给AI Agent完整的一生！港大NYU谢赛宁等最新智能体研究：虚拟即现实

【新智元导读】近日，来自香港大学的Jihan Yang和纽约大学的谢赛宁等人发表了新的成果，将真实世界的地图、街景等各种信息融入Agent所在的虚拟世界，为智能体的未来赋予了无限可能。怎样能构建更强大的AI Agent? 答案是给他们一个完整而真实的世界...

大数据 2024-03-03 人工智能

935阅读

能力与可信度可以兼得？GPT-4、Gemini等多模态大模型评测报告来了

2023 年我们正见证着多模态大模型的跨越式发展，多模态大语言模型（MLLM）已经在文本、代码、图像、视频等多模态内容处理方面表现出了空前的能力，成为技术新浪潮。以 Llama 2，Mixtral 为代表的大语言模型（LLM），以 GPT-4、Gemi...

AIGC 2024-03-01 人工智能

916阅读

AnyGPT:实现任意模态输入到任意模态输出

近日，复旦大学、上海人工智能实验室等机构联合推出了一款名为AnyGPT的多模态大语言模型，该模型在处理语音、文本、图像和音乐等多种模态输入时，可以生成任何模态的输出。 AnyGPT采用离散表示技术，通过在各模态输入上进行离散标记，实现了多模态信息的统一处...

大数据 2024-02-20 人工智能

919阅读

国内首个！最火的MoE大模型APP来了，免费下载，人人可玩

MoE（混合专家）模型最近有多火，不用过多介绍了吧？作为当下最顶尖、最前沿的大模型技术方向，MoE能在不增加推理成本的前提下，为大模型带来性能激增。比如，在MoE的加持之下，GPT-4带来的用户体验较之GPT-3.5有着革命性的飞升。但普通用户想要体...

大数据 2024-02-06 人工智能

1135阅读

iPhone AI图像编辑P图app工具免费在线使用地址苹果MGIE开源模型官网体验入口

MGIE是一项由苹果开源的技术，利用多模态大型语言模型（MLLMs）生成图像编辑指令，通过端到端训练，捕捉视觉想象力并执行图像处理操作，使图像编辑更加智能、直观。点击前往MGIE官网体验入口 MGIE旨在满足以下需求人群： "用户可以通过自然语言直观地...

AIGC 2024-02-06 人工智能

1013阅读

「天工2.0」MoE大模型发布

2月6日，昆仑万维正式发布新版MoE大语言模型「天工2.0」与新版「天工AI智能助手」APP，这是国内首个搭载MoE架构并面向全体C端用户免费开放的千亿级参数大语言模型AI应用。用户即日起可在各手机应用市场下载「天工AI智能助手」APP，体验昆仑万维「天...

AIGC 2024-02-06 人工智能

929阅读

昆仑万维发布「天工2.0」MoE大模型新增多款 AI Agent

昆仑万维发布了新版 MoE 大语言模型「天工2.0」和新版「天工 AI 智能助手」APP。这是国内首个搭载 MoE 架构并免费向 C 端用户开放的大语言模型应用。用户可以在各手机应用市场下载「天工 AI 智能助手」APP，体验「天工2.0」的卓越性能。「...

生成式AI 2024-02-06 人工智能

1011阅读

MGIE官网体验入口苹果多模态大语言模型AI图像编辑工具在线使用地址

MGIE是一项由苹果开源的技术，利用多模态大型语言模型（MLLMs）生成图像编辑指令，通过端到端训练，捕捉视觉想象力并执行图像处理操作，使图像编辑更加智能、直观。点击前往MGIE官网体验入口需求人群： "用户可以通过自然语言直观地描述图像编辑需求，如...

生成式AI 2024-02-05 人工智能

850阅读

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源

OpenAI的GPT-4V和谷歌最新的Gemini多模态大语言模型一经推出就得到业界和学界的热切关注: 一系列工作都从多角度展示了这些多模态大语言模型对视频的理解能力。人们似乎相信我们离通用人工智能artificial general intellige...

大数据 2024-01-30 人工智能

884阅读

2024年度AI投资策略报告：AI三要素共振，AIGC云到端加速推进

今天分享的AI系列深度研究报告：《2024年度AI投资策略报告：AI三要素共振，AIGC云到端加速推进》。（报告出品方：中国银河证券研究院）报告共计：103页核心观点:行业热度将持续，积极把握六大投资主线 (一行业行情回顾及 2...

生成式AI 2024-01-30 人工智能

1157阅读

研究: AI代替打工人成本太高，只有23% 视觉工作可替代

根据 MIT 计算机科学与人工智能实验室的研究，人工智能对打工人的淘汰速度可能比人们想象中的要慢得多。这是因为对于企业来说，视觉 AI 实在是太贵了。在绝大多数情况下，人力成本要比采用自动化更便宜。图源备注：图片由AI生成，图片授权服务商Midjour...

AIGC 2024-01-25 人工智能

855阅读

MIT新研究：打工人不用担心被AI淘汰！成本巨贵，视觉工作只有23%可替代

人工智能会抢走我们的工作吗？如果你每天都看硅谷高管谈论着当今尖端的AI技术，可能会觉得答案是肯定的，并且会很快发生。不过，刚刚MIT计算机科学与人工智能实验室（CSAIL）最近的一项研究，可以让我们可以松一口气了：至少视觉AI还无法替代太多人类。论...

生成式AI 2024-01-25 人工智能

914阅读

马毅LeCun谢赛宁曝出多模态LLM重大缺陷！开创性研究显著增强视觉理解能力

Sam Altman在各种场合都提到，大语言模型的多模态能力，是未来AI技术能够造福人类的最亟待突破的领域。那么现在在多模态大模型的视觉功能能否达到与语言功能匹配的水平？当前多模态模型取得的进步很大程度上归功于大语言模型（LLM）的推理能力。但在视...

AIGC 2024-01-18 人工智能

1011阅读

国内多所高校共建开源社区LAMM，加入多模态语言模型大家庭的时候到了

ChatGPT问世以来，大语言模型（LLM）实现了跳跃式发展，基于自然语言进行人机交互的AI范式得到广泛运用。然而，人类与世界的交互中不仅有文本，其他诸如图片、深度等模态也同样重要。然而，目前的多模态大语言模型（MLLM）研究大多数闭源，对高校和大多数研...

大数据 2024-01-14 人工智能

1016阅读

AI解读视频张口就来？这种「幻觉」难题Vista-LLaMA给解决了

近年来，大型语言模型如 GPT、GLM 和 LLaMA 等在自然语言处理领域取得了显著进展，基于深度学习技术能够理解和生成复杂的文本内容。然而，将这些能力扩展到视频内容理解领域则是一个全新的挑战 —— 视频不仅包含丰富多变的视觉信息，还涉及时间序列的动态...

AIGC 2024-01-08 人工智能

970阅读

GPT-4V都搞不明白的未来推理有解法了！来自华科大&上科大

多模态大语言模型展现了强大的图像理解和推理能力。但要让它们基于当前观测来对未来事件进行预测推理仍然非常困难。即便是当前最强大的GPT-4V（如下图所示），也无法很好地解决这一问题。 △ GPT-4V的错误案例现在，华科大和上科大团队提出了一个赋予...

生成式AI 2023-12-18 人工智能

868阅读

下一代自动驾驶系统，少不了大模型，系统调研来了

随着大语言模型 (LLM 和视觉基础模型 (VFM 的出现，受益于大模型的多模态人工智能系统有潜力像人类一样全面感知现实世界、做出决策。在最近几个月里，LLM 已经在自动驾驶研究中引起了广泛关注。尽管 LLM 具有巨大潜力，但其在驾驶系统中的关键挑战...

生成式AI 2023-12-16 人工智能

897阅读

微软亚洲研究院韦福如：人工智能基础创新的第二增长曲线

从人工智能的发展历程来看，GPT 系列模型（例如 ChatGPT 和 GPT-4）的问世无疑是一个重要的里程碑。由它所驱动的人工智能应用已经展现出高度的通用性和可用性，并且能够覆盖多个场景和行业 —— 这在人工智能的历史上前所未有。然而，人工智能的科研...

AIGC 2023-12-01 人工智能

948阅读

OpenAI 新发布GPT 最佳实践；WordPress新增 AI写作助手；国产语言模型TigerBot发布

? AI新闻 ? WordPress新增Jetpack AI Assistant AI写作助手摘要：Automattic公司宣布，为其WordPress新增AI写作助手–Jetpack AI Assistant。该工具可根据用户提示撰写博文、详情...

生成式AI 2023-11-18 人工智能

1013阅读

多模态大模型幻觉降低30%！中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟

视觉幻觉是常见于多模态大语言模型（Multimodal Large Language Models, MLLMs）的一个典型问题。简单来说就是：模型输出的描述与图片内容不相符。下图中体现了两种幻觉，红色部分错误地描述了狗的颜色（属性幻觉），蓝色部分描...

AIGC 2023-10-30 人工智能

1116阅读

世界模型和DriveGPT这类大模型到底能给自动驾驶带来什么？

本文经自动驾驶之心公众号授权转载，转载请联系出处。大模型今年爆火，很多领域上的应用如雨后春笋般涌现，很多优秀的工作出现，主要集中在数据生成和场景分析表述两部分，重点解决自动驾驶的长尾分布问题和场景识别。今天自动驾驶之心带大家梳理下自动驾驶行业上的大模...

AIGC 2023-10-30 人工智能

1164阅读

HiLM-D：自动驾驶多模态大语言模型玩出花了

本文经自动驾驶之心公众号授权转载，转载请联系出处。笔者个人的一些思考不得不说，最近大模型在学术界火起来了，基于图文匹配的CLIP预训练模型成为近年来在多模态研究领域的经典之作。除此之外，大语言模型的蓬勃发展也进一步为多模态带来了性能提升。自动驾驶领...

人工智能 2023-10-24 人工智能

1045阅读