多模态第11页 - AIGC资讯

华为发布新一代鸿蒙座舱：搭载千悟大模型

在今日的华为智能汽车解决方案发布会上，华为为我们带来了令人瞩目的新一代鸿蒙座舱，该座舱融合了智慧车机、智慧音响和智慧显示，为车主带来前所未有的智能体验。这款新一代鸿蒙座舱不仅拥有先进的千悟大模型，还集成了盘古大模型、MindSpore异思计算框架以及异腾...

人工智能 2024-04-24 人工智能

986阅读

到2028年，多模式人工智能市场将达到50亿美元

人工智能的发展有很多应用，其中越来越受到关注的是多模式人工智能。由于其在数据分析、问题解决和机器学习方面的转变能力，多模式人工智能继续在垂直领域占据主导地位。多模式人工智能市场的增长必然会像滚雪球一样。多式联运人工智能市场规模预计将从2023年的12.6...

生成式AI 2024-04-22 人工智能

869阅读

超越BEVFusion！DifFUSER：扩散模型杀入自动驾驶多任务（BEV分割+检测双SOTA）

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解目前，随着自动驾驶技术的越发成熟以及自动驾驶感知任务需求的日益增多，工业界和学术界非常希望一个理想的感知算法模型，可以同时完成如3D目标检测以及基于BEV空间的语义分...

AIGC 2024-04-22 人工智能

885阅读

阿里云宣布全方位支持Llama 3训练推理帮助开发者构建自己的大模型

阿里云百炼大模型服务平台近期宣布了一项重要的支持计划，即为Meta公司最新开源的Llama3系列大语言模型提供全方位的支持。这项服务包括限时免费的模型训练、部署和推理服务，旨在帮助企业和开发者在阿里云平台上构建和优化自己的专属大模型。主要如下: 免费...

人工智能 2024-04-22 人工智能

891阅读

轻松拿捏4K高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

一个可以自动分析PDF、网页、海报、Excel图表内容的大模型，对于打工人来说简直不要太方便。上海AI Lab，香港中文大学等研究机构提出的InternLM-XComposer2-4KHD（简写为IXC2-4KHD）模型让这成为了现实。相比于其他多模...

大数据 2024-04-22 人工智能

893阅读

从文字模型到世界模型！Meta新研究让AI Agent理解物理世界

LLM已经可以理解文本和图片了，也能够根据它们的历史知识回答各种问题，但它们或许对周围世界当前发生的事情一无所知。现在LLMs也开始逐步学习理解3D物理空间，通过增强LLMs的「看到」世界的能力，人们可以开发新的应用，在更多场景去获取LLMs的帮助。...

大数据 2024-04-21 人工智能

1025阅读

如何利用Transformer有效关联激光雷达-毫米波雷达-视觉特征？

本文经自动驾驶之心公众号授权转载，转载请联系出处。笔者个人理解自动驾驶的基础任务之一是三维目标检测，而现在许多方法都是基于多传感器融合的方法实现的。那为什么要进行多传感器融合?无论是激光雷达和相机融合，又或者是毫米波雷达和相机融合，其最主要的目的就是...

大数据 2024-04-20 人工智能

948阅读

百度小度科技将发布AI原生操作系统DuerOS X

在即将到来的 2024 年 4 月 16 日，备受瞩目的百度Create开发者大会将盛大开幕。而在这场科技盛宴中，小度科技将带来一项前所未有的创新——全球首个AI原生操作系统DuerOS X的发布，这无疑是本次大会的一大亮点。 DuerOS X的发布，标志...

人工智能 2024-04-12 人工智能

886阅读

中山大学“梗王”大模型CLoT 靠讲笑话入选顶会CVPR

中山大学HCP实验室联合Sea AI Lab和哈佛大学等单位开展的一项研究，成功地让大型人工智能模型通过讲笑话的方式，探索多模态大模型的创造力，并因此获得了计算机视觉和模式识别领域的顶级会议CVPR的认可。这项研究的关键在于使用来自日本的“大喜利”（Oo...

生成式AI 2024-04-12 人工智能

1160阅读

新加坡国立大学 | 通过语言分割任何3D目标

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解本文研究了具有自由形式语言指令的开放词汇3D实例分割（OV-3DIS）。先前的作品只依赖于注释的基本类别进行训练，对看不见的长尾类别的泛化能力有限。最近的工作通过生成类...

人工智能 2024-04-12 人工智能

936阅读

Meta AI推MA-LMM:用于长视频理解的记忆增强多模态大模型

Meta AI近日推出了一种名为MA-LMM的新型模型，旨在解决长期视频理解中的挑战。LLMs在处理文本数据时表现出了令人印象深刻的能力，但在处理视频输入方面存在一些限制，例如上下文长度限制和GPU内存限制。为了克服这些限制，研究人员提出了MA-LMM，...

生成式AI 2024-04-12 人工智能

1137阅读

等等我还没上车！LLM赋能端到端全新范式LeGo-Drive，车速拉满

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者个人理解这篇论文介绍了一种名为LeGo-Drive的基于视觉语言模型的闭环端到端自动驾驶方法。该方法通过预测目标位置和可微分优化器规划轨迹，实现了从导航指令到目标位置的端到端闭...

人工智能 2024-04-12 人工智能

959阅读

“梗王”大模型，靠讲笑话登上CVPR | 中山大学

谁能想到，只是让大模型讲笑话，论文竟入选了顶会CVPR！没开玩笑，这还真真儿的是一项正儿八经的研究。例如看下面这张图，如果让你根据它来讲个笑话或梗，你会想到什么？现在的大模型看完后会说：脑子短路。再看一眼蜘蛛侠的海报，大模型会配一句“刚擦的...

大数据 2024-04-12 人工智能

920阅读

「大模型+强化学习」最新综述！港中文深圳130余篇论文：详解四条主流技术路线

强化学习（RL）通过与环境交互的试错反馈来优化顺序决策问题。虽然RL在允许大量试错的复杂电子游戏环境中实现了超越人类的决策能力（例如王者荣耀，Dota 2等），但很难在包含大量自然语言和视觉图像的现实复杂应用中落地，原因包括但不限于：数据获取困难、样本...

人工智能 2024-04-11 人工智能

1151阅读

多个SOTA ！OV-Uni3DETR：提高3D检测在类别、场景和模态之间的普遍性（清华&港大）

本文经自动驾驶之心公众号授权转载，转载请联系出处。这篇论文聚焦于3D目标检测的领域，特别是Open-Vocabulary的3D目标检测。在传统的3D目标检测任务中，系统旨在预测真实场景中物体的定向3D边界框和语义类别标签，这通常依赖于点云或RGB图像...

生成式AI 2024-04-11 人工智能

836阅读

用户画像算法：历史、现状与未来

一、用户画像简介画像是一种人类可理解的、机器可读写的，对用户的结构化描述。它不仅可以提供个性化服务，还在企业的战略决策和商业分析中发挥了重要作用。 1. 画像的分类画像可以根据数据来源分为社会通识类和领域知识类。社会通识类画像又可以按照时间维度划分成...

AIGC 2024-04-11 人工智能

982阅读

得物 AIGC 算法岗(日常实习生) 面经分享

节前，我们组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、参加社招和校招面试的同学，针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。最大的感受就是，今年的算法面试...

人工智能 2024-04-10 人工智能

1796阅读

陈巍：LLaMA-2的多模态版本架构与训练详解（收录于GPT-4/ChatGPT技术与产业分析）

陈巍：2023年9月，Meta的研究人员推出了AnyMAL（任意模态增强语言模型，Any-Modality Augmented Language Model）。该模型能够理解多种模态信号并生成文本回应，即多模态输入，单模态输出。输入的模态可包括图像、视频、...

AIGC 2024-04-10 人工智能

1026阅读

万变不离AI！直击 Google Cloud Next 2024 大会更多细节，不只Gemini 1.5 Pro ！

AI显然成了谷歌Cloud Next 2024的一条主线！这一在拉斯维加斯举行的技术大会，自周二起持续至周四，谷歌宣布了大量新的以云为中心的产品和服务，涵盖从Gemin、平台、Workspace到网络安全工具等一切内容。 Google Cloud Ne...

AIGC 2024-04-10 人工智能

1015阅读

每周AI新闻（2024年第11周）Meta公布Llama 3集群细节 | Sora将于年内推出 | 全球首个AI软件工程师发布

这里是陌小北，一个正在研究硅基生命的碳基生命。正在努力成为写代码的里面背诗最多的，背诗的里面最会写段子的，写段子的里面代码写得最好的…厨子。每周日解读每周AI大事件。欢迎关注同名公众号【陌北有棵树】，关注AI最新技术与资讯。大厂动向 M...

生成式AI 2024-04-10 人工智能

864阅读

GPT-5：我们期待看到的4个新功能

尽管我们不知道GPT-5何时发布，但是我们依然可以期待一下GPT-5的新功能。 OpenAI的GPT-4目前是市场上最好的生成式AI工具，但这并不意味着我们不展望未来。随着OpenAI首席执行官Sam Altman定期暗示GPT-5的信息，似乎我们不久将...

生成式AI 2024-04-10 人工智能

864阅读

提高 AI 训练算力效率：蚂蚁 DLRover 故障自愈技术的创新实践

本文来自蚂蚁 DLRover 开源负责人王勤龙（花名长凡）在 2024 全球开发者先锋大会(GDC 的分享——《DLRover 训练故障自愈：大幅提升大规模 AI 训练的算力效率》。王勤龙，长期在蚂蚁从事 AI 基础设施的研发，主导了蚂蚁分布式训练的弹...

大数据 2024-04-09 人工智能

970阅读

多模态大模型有了统一分割框架，华科PSALM多任务登顶，模型代码全开源

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ 最近，多模态大模型（LMM）取得了一系列引人注目的成就，特别是在视觉 - 语言任务上的表现令人瞩目。它们的成功不仅展现了多模态大模型在各...

AIGC 2024-04-08 人工智能

860阅读

谷歌AI研究人员提出噪声感知训练方法（NAT）用于布局感知语言模型

在文档处理中，特别是在视觉丰富的文档（VRDs）中，高效信息提取(IE 的需求变得越来越关键。VRDs，如发票、水电费单和保险报价，在业务工作流中随处可见，通常以不同的布局和格式呈现类似信息。自动从这些文档中提取相关数据可以显著减少解析所需的手动工作量。然...

生成式AI 2024-04-08 人工智能

816阅读

MiniGPT4-Video官网体验入口视频理解多模态AI大模型使用地址

MiniGPT4-Video是什么？ MiniGPT4-Video是为视频理解设计的多模态大模型，能处理时态视觉数据和文本数据，配标题、宣传语，适用于视频问答。点击前往MiniGPT4-Video官网体验入口 MiniGPT4-Video的主要特点...

生成式AI 2024-04-08 人工智能

969阅读

智能百科 | 多模态人工智能及其应用

多模态人工智能概述多模态人工智能是一种人工智能技术，其能够处理和理解多种类型的输入数据，例如文本、图像、语音和视频等。与传统的单一模态人工智能相比，多模态人工智能能够更全面地理解和处理信息，因为其能够同时考虑多种输入源的信息。多模态人工智能通常利用...

大数据 2024-04-08 人工智能

1256阅读

太全了！多模态深度学习的综述！

1.介绍我们对世界的体验是多模态的 —— 我们看到物体，听到声音，感觉到质地，闻到气味，尝到味道。模态是指某件事发生或经历的方式，当一个研究问题包含多个模态时，它就具有多模态的特征。为了让人工智能在理解我们周围的世界方面取得进展，它需要能够同时解释这些...

人工智能 2024-04-08 人工智能

1016阅读

CVPR 2024录用结果出炉！2719篇论文被接收，录用率23.6%

想了解更多AIGC的内容：请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ CVPR 2024最终录用结果公布了！刚刚，CVPR官方发文称，今年共提交了11532份有效论文，2719篇论文被接收，录用率为23...

大数据 2024-04-07 人工智能

904阅读

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ GPT-4V 的推出引爆了多模态大模型的研究。GPT-4V 在包括多模态问答、推理、交互在内的多个领域都展现了出色的能力，成为如今最领先...

大数据 2024-04-07 人工智能

856阅读

中科大等意外发现：大模型不看图也能正确回答视觉问题！

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ 大模型不看图，竟也能正确回答视觉问题？！中科大、香港中文大学、上海AI Lab的研究团队团队意外发现了这一离奇现象。他们首先看到像...

人工智能 2024-04-07 人工智能

796阅读

大模型投资2024：阿里腾讯，争做一号“金主”

以国内大模型初创企业主要投资方的身份，腾讯和阿里再次站在了“金主爸爸”的位置。 2023年至今，这两家曾经的投资大户不约而同地大幅减少了自己的出手次数。据天眼查公开数据，2023年一整年，腾讯投资仅出手33次，平均每月不足3次。而2021年和2022年，腾...

人工智能 2024-04-07 人工智能

831阅读

首个开源世界模型！百万级上下文，长视频理解吊打GPT-4，UC伯克利华人一作

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ 首个开源「世界模型」来了！来自UC berkeley的研究人员发布并开源了LWM（LargeWorldModel）系列模型：论文...

AIGC 2024-04-07 人工智能

867阅读

让智能体像孩子一样观察别人学习动作，跨视角技能学习数据集EgoExoLearn来了

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ 在探索人工智能边界时，我们时常惊叹于人类孩童的学习能力 —— 可以轻易地将他人的动作映射到自己的视角，进而模仿并创新。当我们追求更高阶...

大数据 2024-04-07 人工智能

832阅读

《AIGCmagic星球》，五大AIGC方向正式上线！让我们在AIGC时代携手同行！限量活动中！

AIGC：AI行业前所未有的新时代 AIGC时代蓬勃的发展势头，ToB和ToC的双重可能性，让AIGC方向的未来不可限量。根据艾瑞咨询预测，中国的AIGC产业规模在2023年约为143亿元，2028年预计将达到7202亿元，建立完善的AIGC产业生...

生成式AI 2024-04-06 人工智能

1096阅读

GPT-5红队测试邮件曝光，最早6月发布？网友在线逼问Altman，数十亿美元超算26年启动

GPT-5已经开始红队测试了? 就在这几天，网上已经有多人晒出了OpenAI发给自己的红队录取通知书。此前有传闻说，GPT-5将于今年6月发布。看起来，红队测试与模型发布的时间线十分吻合。有网友直接晒出了自己收到OpenAI邮件邀请的截图。这...

生成式AI 2024-04-06 人工智能

862阅读

【AIGC调研系列】苹果MM1大模型与其他模型相比的优势和劣势

苹果MM1大模型与其他模型相比，具有以下优势和劣势：优势：多模态能力：MM1是基于大规模多模态预训练的，这意味着它能够处理和理解多种类型的数据（如文本、图像等），在上下文预测、多图像和思维链推理等方面表现出色[7][10]。少样本学习能力：...

大数据 2024-04-06 人工智能

1022阅读

AIGC批量图生成的一些思考

从技术到先进生产力，从先进装备到作战能力，中间隔了一道GAP。现在AI技术进展很快，开源的模型大部分是单点或者一个模块单元的突破。如何把这些技术整装成作战单元，为业务带来实际的价值是我们必须要解决的一个问题。消费侧技术点中文clip：这...

人工智能 2024-04-05 人工智能

1014阅读

首个开源世界模型LWM ：百万级上下文，长视频理解超GPT-4

来自加州大学伯克利分校的研究人员最近发布并开源了首个世界模型，被称为 LWM（LargeWorldModel）系列模型。这一模型采用了大量视频和书籍数据集，通过 RingAttention 技术实现了长序列的可扩展训练，使得模型的上下文长度达到了1M to...

生成式AI 2024-04-04 人工智能

933阅读

对标GPT-4！中国移动九天大模型通过双备案

快科技4月4日消息，日前，国家网信办公布已备案大模型清单，中国移动九天自然语言交互大模型”名列其中，标志着中国移动九天AI大模型可正式对外提供生成式人工智能服务。中国移动表示，这是同时通过国家生成式人工智能服务备案”和境内深度合成服务算法备案”双备案的首...

人工智能 2024-04-04 人工智能

876阅读

OS-Copilot：实现具有自我完善能力的通用计算机智能体

? CSDN 叶庭云：https://yetingyun.blog.csdn.net/ AI 缩小了人类间的知识和技术差距论文标题：OS-Copilot: Towards Generalist Computer Agents with S...

人工智能 2024-04-03 人工智能

966阅读

AI写作的奥秘：从困惑度到爆发度的探索之旅

大家好，小发猫降重今天来聊聊AI写作的奥秘：从困惑度到爆发度的探索之旅，希望能给大家提供一点参考。以下是针对论文重复率高的情况，提供一些修改建议和技巧，可以借助此类工具： AI写作的奥秘：从困惑度到爆发度的探索之旅在AI写作的领域中，困惑度和...

生成式AI 2024-04-03 人工智能

898阅读

在ChatGPT中，能用DALL·E 3编辑图片啦！

本文经 AIGC开放社区公众号授权转载，转载请联系出处。想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ 4月3日，OpenAI开始向部分用户，提供在ChatGPT中的DALL·E...

生成式AI 2024-04-03 人工智能

873阅读

AI智能问答对话系统/chatgpt源码/MidjourneyAI绘画系统安装部署详细图文教程/支持GPTS、语音对话、文档分析、识图画图等功能

GoMaxAI创作系统，是一个融合了ChatGPT问答系统特性和Midjourney绘图能力的AI平台。它整合了OpenAI-GPT的全部模型、claude、gemini以及多种国内AI大模型。经过全面的源码系统测试，GoMaxAI展现出卓越的性能，成为国...

AIGC 2024-04-02 人工智能

1191阅读

叠衣服、擦案板、冲果汁，能做家务的国产机器人终于要来了

将家务全部交给机器人的那一天，或许会比想象中更快到来。还记得会炒菜的斯坦福 ALOHA 机器人吗？现在，中国的初创公司自变量机器人（X Square）展示了同样令人惊艳的能力，甚至更进一步。在该公司最新展示的 Demo 中，完全基于大模型自主推理的...

人工智能 2024-04-02 人工智能

797阅读

每日一看大模型新闻（2024.1.12）首个国产开源MoE大模型来了！性能媲美Llama 2-7B，计算量降低60%；谷歌MIT最新研究证明：高质量数据获取不难，大模型就是归途；为大模型恶补数学

1.产品发布 1.1 Luma AI：推出文生3D模型Genie 1.0 发布日期：2024.1.12 https://twitter.com/LumaLabsAI/status/1744778363330535860?s=20 主要内...

AIGC 2024-04-02 人工智能

1097阅读

RV融合性能拉爆！RCBEVDet：Radar也有春天，最新SOTA！

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解这篇论文关注的主要问题是3D目标检测技术在自动驾驶进程中的应用。尽管环视相机技术的发展为3D目标检测提供了高分辨率的语义信息，这种方法因无法精确捕获深度信息和在恶劣天...

人工智能 2024-04-02 人工智能

989阅读

阿里7B多模态文档理解大模型拿下新SOTA

多模态文档理解能力新SOTA！阿里mPLUG团队发布最新开源工作mPLUG-DocOwl 1.5，针对高分辨率图片文字识别、通用文档结构理解、指令遵循、外部知识引入四大挑战，提出了一系列解决方案。话不多说，先来看效果。复杂结构的图表一键识别转换为M...

生成式AI 2024-04-02 人工智能

965阅读

教育领域大模型技术与应用

苏喻博士，高级工程师，合肥人工智能研究院副研究员，原科大讯飞AI 教育研究院副院长，中国科学技术大学博士后，安徽省青少年信息学教育专委会秘书长，CCF 大专委-通讯委员，合肥市 D 类人才。苏喻博士一直在智慧教育方向深耕，聚焦于青少年编程。面对数据稀疏...

大数据 2024-04-02 人工智能

1358阅读

上海交大新框架解锁CLIP长文本能力，多模态生成细节拿捏，图像检索能力显著提升

CLIP长文本能力被解锁，图像检索任务表现显著提升！一些关键细节也能被捕捉到。上海交大联合上海AI实验室提出新框架Long-CLIP。 △棕色文本为区分两张图的关键细节 Long-CLIP在保持CLIP原始特征空间的基础上，在图像生成等下游任务中即插...

生成式AI 2024-04-01 人工智能

984阅读

冒泡鸭AI体验入口多模态AI智能体互动平台使用指南

冒泡鸭AI是基于自研多模态大模型开发的AI互动平台，提供拟人、工具、内容、游戏、娱乐等多个领域的海量智能体。平台具有超长的上下文记忆能力和实时联网搜索能力，能够深度理解用户意图，并提供即时、准确、个性化的回复和选择。用户还可以定制个性化的AI智能体，以满足...

大数据 2024-04-01 人工智能

1063阅读