视觉语言第2页 - AIGC资讯

谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

【新智元导读】谷歌在语言和声控计算机界面的漫长道路上又迈出了重要一步。最新ScreenAI视觉语言模型，能够完成各种屏幕QA问答、总结摘要等任务。每个人想要的大模型，是真·智能的那种...... 这不，谷歌团队就做出来了一个强大的「读屏」AI。研究人员...

生成式AI 2024-03-05 人工智能

604阅读

直接干上车！DriveVLM：首个Orin部署的快慢双系统智驾大模型

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解在目前自动驾驶领域，传统的感知（perception）-预测（prediction）-规划（planning）的常规端到端自动驾驶在处理常规场景时表现尚可，但在面对复...

AIGC 2024-02-28 人工智能

1075阅读

清华叉院、理想提出DriveVLM，视觉大语言模型提升自动驾驶能力

与生成式 AI 相比，自动驾驶也是近期 AI 最活跃的研究和开发领域之一。要想构建完全的自动驾驶系统，人们面临的主要挑战是 AI 的场景理解，这会涉及到复杂、不可预测的场景，例如恶劣天气、复杂的道路布局和不可预见的人类行为。现有的自动驾驶系统通常包括...

大数据 2024-02-23 人工智能

620阅读

AI视野：英伟达推文生图模型ConsiStory；高度可控AI试衣OOTDiffusion；开发者推SoraWebui开源项目；Groq最快AI推理芯片成本推算高得离谱

欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/ ???AI应用英伟达推出免训练，...

大数据 2024-02-21 人工智能

521阅读

谷歌AI推出ScreenAI：用于UI和信息图解读的视觉语言模型

划重点: ⭐️ Google AI 团队提出了 ScreenAI，这是一个视觉语言模型，可以全面理解 UI 和信息图。 ⭐️ ScreenAI 在多个任务上表现出色，包括图形问答（QA），元素注释，摘要生成等。 ⭐️ 该团队发布了三个新数据集，为未来研究提...

生成式AI 2024-02-21 人工智能

602阅读

Windows、Office直接上手，大模型智能体操作电脑太6了

当我们谈到 AI 助手的未来，很难不想起《钢铁侠》系列中那个令人炫目的 AI 助手贾维斯。贾维斯不仅是托尼・斯塔克的得力助手，更是他与先进科技的沟通者。如今，大模型的出现颠覆了人类使用工具的方式，我们或许离这样的科幻场景又近了一步。想象一下，如果一个多模...

大数据 2024-02-19 人工智能

750阅读

生成式人工智能（AIGC）之最全详解图解

生成式人工智能（AIGC）之最全详解图解 1. AIGC的发展历程 1.1 AIGC演化重要时间节点 AIGC发展历程图 OpenAI大语言模型发展进程 1.2技术推进路线 2.AIGC技术场景 2.1 技术场景 3.1AIGC相关应用...

生成式AI 2024-02-18 人工智能

1932阅读

基于LLaVA开源模型打造视频聊天助手

简介大型语言模型已经证明自己是一项革命性的技术。目前，人们已经开发出了许多基于大型语言模型功能的应用程序，而且预计很快还会有更多的应用程序问世。大型语言模型最有趣的应用之一是将其部署为智能助手，它们能够帮助人类用户完成各种任务。人们已经能够通过指令微...

AIGC 2024-02-15 人工智能

713阅读

LLM是世界模型的新证据？ChatGPT能理解WiFi等物理信号，并猜出你的位置

大语言模型是否是世界模型? 大语言模型除了在数字世界完成如写作或翻译等任务，它们能否理解并处理物理世界中的信息并进而完成更广泛的任务呢? 最近来自香港科技大学（HKUST）、南洋理工大学(NTU 与加利福尼亚大学洛杉矶分校(UCLA 的研究者们提供了新的思...

生成式AI 2024-02-13 人工智能

683阅读

AIGC（MLLM、VLM、LLM、SD）系列——论文解读目录

涉及面广：多模态生成模型——MLLM （目前集中在视觉语言模型——VLM）、大语言模型——LLM、生成模型（SD系列）、对比学习的经典模型（CLIP系列）。持续更新：对于已经完成解读的会附上链接（有的会在一些场景做尝试，也会附上链接供大家快速参考结果...

大数据 2024-02-10 人工智能

972阅读

InternLM-XComposer2官网体验入口视觉语言AI模型文本图像合成在线使用地址

InternLM-XComposer2是一款领先的视觉语言模型，专注于自由形式文本图像合成与理解。该模型不仅能理解传统的视觉语言，还能从各种输入构建交织的文本图像内容，实现高度可定制的内容创作。InternLM-XComposer2 采用部分LoRA（PL...

AIGC 2024-02-01 人工智能

602阅读

多模态LLM多到看不过来？先看这26个SOTA模型吧

当前 AI 领域的关注重心正从大型语言模型（LLM）向多模态转移，于是乎，让 LLM 具备多模态能力的多模态大型语言模型（MM-LLM）就成了一个备受关注的研究主题。近日，腾讯 AI Lab、京都大学和穆罕默德・本・扎耶德人工智能大学的一个研究团队发布...

生成式AI 2024-01-31 人工智能

583阅读

近200+自动驾驶数据集全面调研！一览如何数据闭环全流程

写在前面&个人理解自动驾驶技术在硬件和深度学习方法的最新进展中迅速发展，并展现出令人期待的性能。高质量的数据集对于开发可靠的自动驾驶算法至关重要。先前的数据集调研试图回顾这些数据集，但要么集中在有限数量的数据集上，要么缺乏对数据集特征的详细调查...

生成式AI 2024-01-31 人工智能

944阅读

年轻人的第一个多模态大模型：1080Ti轻松运行，已开源在线可玩

一款名为Vary-toy的“年轻人的第一个多模态大模型”来了！模型大小不到2B，消费级显卡可训练，GTX1080ti 8G的老显卡轻松运行。想将一份文档图片转换成Markdown格式？以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤...

生成式AI 2024-01-29 人工智能

636阅读

CMU华人18万打造高能机器人，完爆斯坦福炒虾机器人！全自主操作，1小时学会开12种门

比斯坦福炒虾机器人还厉害的机器人来了！最近，CMU的研究者只花费2.5万美元，就打造出一个在开放世界中可以自适应移动操作铰接对象的机器人。论文地址：https://arxiv.org/abs/2401.14403 厉害之处就在于，它是完全自主完成操作...

大数据 2024-01-29 人工智能

645阅读

谷歌AI研究提出 SpatialVLM：一种数据合成和预训练机制，以增强视觉语言模型 VLM 空间推理能力

谷歌AI研究团队最近提出了SpatialVLM，这是一种旨在增强视觉语言模型（VLMs）空间推理能力的创新系统。尽管先进的模型如GPT-4V在人工智能驱动任务中取得了显著进展，但它们在空间推理方面仍存在显著局限。空间推理涉及理解物体在三维空间中的位置以及...

生成式AI 2024-01-29 人工智能

710阅读

通义千问视觉语言模型Qwen-VL在线体验入口阿里云AI在线使用入口

Qwen-VL是阿里云推出的通用型视觉语言模型，具备强大的视觉理解和多模态推理能力。采用 Transformer 结构，以 7B 参数规模进行预训练，支持 448x448 分辨率，能够端到端处理图像与文本的多模态输入与输出。Qwen-VL在多个视觉基准测试...

生成式AI 2024-01-29 人工智能

833阅读

【随手记录】Llama Tutorial 大语言模型实践手把手系列带实践源码

这个tutorial的契机是yy突然看到了一个workshop 所以类似于一周大作业的形式，输入command输出使用了自动驾驶哪些模块，代码在这里所以就干一干，顺便写一个tutorial给大家参考和教程引申更多的应用参考资料： https:...

生成式AI 2024-01-28 人工智能

690阅读

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

通义千问的图像推理能力，最近有了大幅提升。 2024年，大模型领域要卷什么? 如果没有思路的话，不妨看看各家大厂都在押注什么方向。最近一段时间，先是 OpenAI 推出 GPT-4V，让大模型拥有了前所未有的图像语义理解能力。谷歌随后跟上，发布的 G...

大数据 2024-01-26 人工智能

589阅读

中文性能反超VLM顶流GPT-4V，阿里Qwen-VL超大杯限免！看图秒写编程视觉难题一眼辨出

【新智元导读】多模态大模型将是AI下一个爆点。最近，通义千问VLM模型换新升级，超大杯性能堪比GPT-4V。最最重要的是，还能限时免费用。最近，通义千问实火。前段时间被网友玩疯的全民舞王，让「AI科目三」频频登上热搜。让甄嬛、慈禧、马斯克、猫主子和兵...

生成式AI 2024-01-26 人工智能

780阅读

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

过去一年，生成式人工智能发展的核心关键词，就是「大」。人们逐渐接受了强化学习先驱 Rich Sutton 充分利用算力「大力出奇迹」的思潮，庞大的数据量是 AI 模型展现出惊人智慧的核心原因。数据规模越大、质量越高、标注越细，模型就能了解到更全面的世界...

大数据 2024-01-25 人工智能

558阅读

买个机器人端茶倒水有希望了？Meta、纽约大学造了一个OK-Robot

「xx，去把电视柜上的遥控器帮我拿过来。」在一个家庭环境中，很多家庭成员都不免被支使干这种活儿。甚至有时候，宠物狗也难以幸免。但人总有支使不动的时候，宠物狗也并不一定都能听懂。帮人类干活儿的终极梦想还是寄托在机器人身上。最近，纽约大学、Meta 研发出...

AIGC 2024-01-24 人工智能

576阅读

万字总结 | 2023大模型与自动驾驶论文走马观花

本文经自动驾驶之心公众号授权转载，转载请联系出处。 2023年已经匆匆过去大半，不知各位自动驾驶小伙伴今年的工作生活情况是否顺利呢？高阶ADAS方案量产了吗？新的文章和实验进展又是否顺利呢？今天给大家总结了2023年前后的一些自动驾驶结合大模型的开创性...

生成式AI 2024-01-24 人工智能

855阅读

世界顶尖多模态大模型开源！又是零一万物，又是李开复

领跑中英文两大权威榜单，李开复零一万物交出多模态大模型答卷! 距离其首款开源大模型Yi-34B和Yi-6B的发布，仅间隔不到三个月的时间。模型名为Yi Vision Language（Yi-VL），现已正式面向全球开源。同属Yi系列，同样具有两个版本...

生成式AI 2024-01-23 人工智能

586阅读

Agent触摸汉堡辨冷热，首次拥有类人感官！UCLA等发布3D多模态交互具身智能大模型

具身智能，是大模型未来应用的一个重要方向。现在，大模型加持下的智能体，能够参与3D环境，不仅有了听觉视觉，还有了触觉等多种感官能力。卧室里有什么物体，一眼辨认。听到门铃响了，LLM便会告诉你家里来客人了。大模型加持的NPC，在触摸桌子的香蕉后，...

大数据 2024-01-22 人工智能

787阅读

Video-LLaMA 论文精读

Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding video-LLaMA 一种用于视频理解的指令调整视听语言模型引言 ...

大数据 2024-01-22 人工智能

719阅读

最佳开源模型刷新多项SOTA，首次超越Mixtral Instruct！「开源版GPT-4」家族迎来大爆发

Mixtral 8x7B开源模型的诞生，正如Llama一样，为开源社区了带来曙光。前段时间，Mixtral刚刚发布了8x7B模型的论文。在基准测试结果中，其性能达到或超过 Llama 2-70B和GPT-3.5。甚至，Mixtral在数学、代码生成和...

大数据 2024-01-19 人工智能

634阅读

AI成达沃斯论坛讨论热点各行各业更关注结果准确性

1月19日消息，在瑞士达沃斯举办的世界经济论坛2024年年会上，Salesforce、微软和谷歌等全球最大科技公司纷纷展示自家在人工智能方面技术实力，生成式人工智能也已经成为今年会议讨论的焦点。英特尔首席执行官帕特·盖尔辛格（Pat Gelsinge...

生成式AI 2024-01-19 人工智能

595阅读

机器人领域首个开源视觉-语言操作大模型，RoboFlamingo框架激发开源VLMs更大潜能

近年来，大模型的研究正在加速推进，它逐渐在各类任务上展现出多模态的理解和时间空间上的推理能力。机器人的各类具身操作任务天然就对语言指令理解、场景感知和时空规划等能力有着很高的要求，这自然引申出一个问题：能不能充分利用大模型能力，将其迁移到机器人领域，直接...

大数据 2024-01-17 人工智能

631阅读

AIGC 综述 2023：A History of Generative AI from GAN to ChatGPT

GAI：发展历史，核心技术，应用领域以及未来发展摘要 1、引言 1.1、主要贡献 1.2、组织结构 2、生成式AI的发展历史 2.1、NLP领域的发展 2.2、CV领域的发展 2.3、CV与NLP的融合 3、AIGC的核心技术基础...

人工智能 2024-01-08 人工智能

968阅读

Stable Diffusion - 图像反推 (Interrogate) 提示词算法 (BLIP 和 DeepBooru)

欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/131817599 图像反推 (Interrogate 功能，是指...

AIGC 2024-01-07 人工智能

1278阅读

谷歌起草“机器人宪法”，以确保 AI 机器人不会伤害人类

1 月 5 日消息，谷歌旗下 DeepMind 公司近日公布了三项新进展，其中之一针对收集训练数据的系统，起草了“机器人宪法”，确保 AI 机器人不会伤害人类。谷歌的数据收集系统 AutoRT 可以同时利用视觉语言模型（VLM）和大型语言模型（LLM...

大数据 2024-01-05 人工智能

560阅读

谷歌DeepMind机器人成果三连发！两大能力全提升，数据收集系统可同时管理20个机器人

几乎是和斯坦福“炒虾洗碗”机器人同一时间，谷歌DeepMind也发布了最新具身智能成果。并且是三连发：先是一个主打提高决策速度的新模型，让机器人的操作速度（相比原来的Robotics Transformer）提高了14%——快的同时，质量也没有下滑...

人工智能 2024-01-05 人工智能

537阅读

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发

如今，GPT-4 Vision在语言理解和视觉处理方面展现出了非凡的能力。然而，如果想在不影响性能的前提下，寻求具有成本效益的替代方案，开源方案就蕴藏着无限可能。国外的一位开发者Youssef Hosni为大家奉上了三种GPT-4V的开源替代方案，可...

AIGC 2024-01-03 人工智能

715阅读

基础模型+机器人：现在已经走到哪一步了

机器人是一种拥有无尽可能性的技术，尤其是当搭配了智能技术时。近段时间创造了许多变革性应用的大模型有望成为机器人的智慧大脑，帮助机器人感知和理解这个世界并制定决策和进行规划。近日，CMU 的 Yonatan Bisk 和 Google DeepMind...

大数据 2024-01-01 人工智能

563阅读

Gemini vs GPT-4V到底哪家强？视觉-语言模型的全面比较和结合使用

概括大家好，我是戚张扬，目前就读于香港大学，今天和大家分享一篇我们关于视觉语言模型最新的研究，这篇论文提供了对谷歌的Gemini和OpenAI的GPT-4V(ision 两个SOTA模型的深入定性比较研究。我们的研究涉及到对这两个模型在视觉语言能力、与...

大数据 2023-12-29 人工智能

864阅读

一篇综述，看穿基础模型+机器人的发展路径

机器人是一种拥有无尽可能性的技术，尤其是当搭配了智能技术时。近段时间创造了许多变革性应用的大模型有望成为机器人的智慧大脑，帮助机器人感知和理解这个世界并制定决策和进行规划。近日，CMU 的 Yonatan Bisk 和 Google DeepMind...

大数据 2023-12-25 人工智能

609阅读

Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于视频理解的指令调谐视听语言

1.摘要我们提出了一个多模态框架Video-LLaMA1，它使大型语言模型(LLM 能够理解视频中的视觉和听觉内容。视频-来自冻结的预训练视频和音频编码器和冻结的LLM的美洲驼引导跨模式训练。不像以前的工作，补充线性最小二乘法只处理视觉或听觉信号...

人工智能 2023-12-21 人工智能

809阅读

AI视野：Midjourney V6史诗级升级;ChatGPT新增存档聊天记录功能;阿里DreaMoving开源；百度千帆AppBuilder开放

???AI新鲜事 Midjourney V6史诗级升级，网友惊呼太逼真! 网友在Midjourney V6第二次社区评价中惊叹其逼真神图，光影效果出众，上线倒计时，可能在今明两天内发布。 ChatGPT新增存档聊天记录功能 12月21日，OpenAI在...

人工智能 2023-12-21 人工智能

932阅读

下一代自动驾驶系统，少不了大模型，系统调研来了

随着大语言模型 (LLM 和视觉基础模型 (VFM 的出现，受益于大模型的多模态人工智能系统有潜力像人类一样全面感知现实世界、做出决策。在最近几个月里，LLM 已经在自动驾驶研究中引起了广泛关注。尽管 LLM 具有巨大潜力，但其在驾驶系统中的关键挑战...

生成式AI 2023-12-16 人工智能

637阅读

UC伯克利DeepMind等联合发布真实世界模拟器，打破虚实边界

真实世界模拟器来啦！还在发愁训练出的大模型无法适应真实的物理世界吗？ AI Agent想要进入我们的生活还有多远的距离？ ——UC伯克利、谷歌DeepMind、MIT和阿尔伯塔大学的研究人员告诉你答案。在NeurlPS 2023上，研究人员将展示他们...

AIGC 2023-12-16 人工智能

746阅读

What the DAAM: Interpreting Stable Diffusion Using Cross Attention

What the DAAM: Interpreting Stable Diffusion Using Cross Attention (Paper reading Raphael Tang, Comcast Applied AI, ACL2023 b...

大数据 2023-12-15 人工智能

715阅读

六大赛道十项技术：智能体、3D生成引爆AI，空间计算开启终端变革

两千年前的古人穿越到一千年前后，需要适应的东西可能不多。而一千前的古人穿越到一百年前，变化也不至于大到难以适应。但如果一百年前的古人穿越到现在，甚至只是有人“冬眠”10年、20年，面对的现实世界的变化，恐怕会是天翻地覆。日新月异的技术进步，正不断带来颠覆...

大数据 2023-12-14 人工智能

543阅读

LLM生成3D场景，无限延伸！斯坦福华人提出3D动画生成框架，一句话一幅图创造无限3D世界

斯坦福华人退学博士开发的Pika，让AI技术和艺术迸发出了绚丽的火花。最近，又有斯坦福的华人研究人员提出的新的框架——WonderJourney，可以用一句话或者一张图，自动生成一系列3D场景的连续画面，效果炫酷！图片用一张爱丽丝奇境漫游的图片，...

AIGC 2023-12-14 人工智能

652阅读

首个GPT-4驱动的人形机器人！无需编程+零样本学习，还可根据口头反馈调整行为

让GPT-4操纵人形机器人，事先不做任何编程or训练，能搞成啥样儿？答案是：太猎奇了！这不，要求机器人表演“在昏暗电影院里狂炫爆米花，却突然发现吃的是隔壁陌生人的?”。在GPT-4的操纵下，机器人笑容凝固，“尴尬”得摇头扶额后仰：但在尴尬...

AIGC 2023-12-13 人工智能

599阅读

【Video-LLaMA】增强LLM对视频内容的理解

Paper:《Video-LLaMA : An Instruction-tuned Audio-Visual Language Model for Video Understanding》 Authors: Hang Zhang, Xin Li, Lid...

生成式AI 2023-12-13 人工智能

853阅读

当GPT-4V充当机器人大脑，可能你都没AI会规划

GPT-4V 已经能帮我们设计网站代码，控制浏览器，这些应用集中在虚拟数字世界中。假如我们把 GPT-4V 带入现实世界，让它作为控制机器人的大脑，会有什么有趣的结果呢？最近，来自清华大学交叉信息研究院的研究者提出「ViLa」算法，实现了让 GPT-4...

大数据 2023-12-12 人工智能

587阅读

LLaMA Adapter和LLaMA Adapter V2

LLaMA Adapter论文地址： https://arxiv.org/pdf/2303.16199.pdf LLaMA Adapter V2论文地址： https://arxiv.org/pdf/2304.15010.pdf LLaMA Ada...

人工智能 2023-12-10 人工智能

703阅读

首个精通3D任务的具身通才智能体：感知、推理、规划、行动统统拿下

想要迈向通用人工智能，必须要构建一个能够理解人类生活的真实世界，并掌握丰富技能的具身通用智能体。今年以来，以 GPT-4 (V [1]、LLaVA [2]、PALM-E [3] 等为代表的多模态大语言模型（Multi-modal Large Langu...

AIGC 2023-12-08 人工智能

631阅读

新AI框架DreamSync:结合图像理解模型的反馈改善文本到图像合成

来自南加州大学、华盛顿大学、巴伊兰大学和谷歌研究团队的研究人员推出了DreamSync，这是一种新型人工智能框架，致力于解决扩散型文本到图像（T2I）模型中对齐和审美吸引力的问题，而无需进行人工标注、修改模型架构或使用强化学习。 DreamSync的方法是...

生成式AI 2023-12-06 人工智能

633阅读