视觉理解 - AIGC资讯

跟AI做搭子，还是这届年轻人会玩儿

这届年轻人越来越喜欢跟AI做搭子。比如跟AI做生活搭子，让它帮自己挑水果，X平台网友“Cydiar”前不久发文，说自己用GPT-4o选出了水果店里薄皮沙瓤的一个甜西瓜。对此，有超70万网友在线围观，还有不少人在评论区用AI选起了各种水果。除了让...

大数据 2024-06-20 人工智能

798阅读

港大字节提出多模态大模型新范式，模拟人类先感知后认知，精确定位图中物体

当前，多模态大模型（MLLM）在多项视觉任务上展现出了强大的认知理解能力。然而大部分多模态大模型局限于单向的图像理解，难以将理解的内容映射回图像上。比如，模型能轻易说出图中有哪些物体，但无法将物体在图中准确标识出来。定位能力的缺失直接限制了多模态...

AIGC 2024-05-27 人工智能

789阅读

OpenAI 首次推出 GPT-4o“全能”模型，干翻所有语音助手

OpenAI 在本周一(2024年5月13号推出了一款名为 GPT-4o 的新旗舰级生成式AI模型。这里的“o”代表“全能”，因为这款模型能够处理文本、语音和视频三种不同的输入。在未来几周内，GPT-4o 将逐步应用于公司针对开发者和消费者的各类产品。...

AIGC 2024-05-15 人工智能

788阅读

人工客服要被取代？用GPT-4o模拟处理客服事务，100%流畅毫无AI味

OpenAI于2024年5月13日推出了GPT-4o模型，其中的“O”代表全能（Omni），在人机互动的自然度上取得了显著进步。GPT-4o支持多模态输入和输出，包括语音、视频、图像和代码，能够实时与用户进行无缝交流，理解情感，并展现出幽默个性。该模型的...

人工智能 2024-05-14 人工智能

742阅读

GPT-4o深夜炸场！AI实时视频通话丝滑如人类，Plus功能免费可用，奥特曼：《她》来了

不开玩笑，电影《她》真的来了。 OpenAI最新旗舰大模型GPT-4o，不仅免费可用，能力更是横跨听、看、说，丝滑流畅毫无延迟，就像在打一个视频电话。现场直播的效果更是炸裂：它能感受到你的呼吸节奏，也能用比以前更丰富的语气实时回复，甚至可以做到随时打...

大数据 2024-05-14 人工智能

757阅读

阿里云发布通义千问2.5版性能赶超GPT-4 Turbo

阿里云今日正式发布通义千问2.5版本，该版本在模型性能上全面赶超了GPT-4Turbo，展现了其强大的技术实力。与此同时，通义千问最新开源的1100亿参数模型Qwen1.5-110B在多个基准测评中取得了卓越成绩，超越了Meta的Llama-3-70B模型...

生成式AI 2024-05-09 人工智能

786阅读

开源领域最强大模型！阿里云发布通义千问2.5：全面赶超GPT-4 Turbo

快科技5月9日消息，阿里云正式发布了通义千问2.5，模型性能全面赶超GPT-4 Turbo，声称地表最强中文大模型。据了解，通义千问2.5最新开源的1100亿参数模型在多个基准测评中均取得了最佳成绩，成功超越了Meta的Llama-3-70B模型，成为开...

生成式AI 2024-05-09 人工智能

754阅读

阿里巴巴推出通义千问2.5 号称性能超越GPT-4 Turbo

在人工智能领域，阿里巴巴再次取得重大进展，于5月9日正式发布了通义千问2.5版本。该版本在模型性能上全面超越了GPT-4Turbo，标志着阿里巴巴在AI技术发展上的又一重要里程碑。通义千问2.5的主要提升包括: 理解能力提升9%:在文本理解方面，相较...

生成式AI 2024-05-09 人工智能

810阅读

超级智能体生命力觉醒！可自我更新的AI来了，妈妈再也不用担心数据瓶颈难题

哭死啊，全球狂炼大模型，一互联网的数据不够用，根本不够用。训练模型搞得跟《饥饿游戏》似的，全球AI研究者，都在苦恼怎么才能喂饱这群数据大胃王。尤其在多模态任务中，这一问题尤为突出。一筹莫展之际，来自人大系的初创团队，用自家的新模型，率先在国内把“模...

生成式AI 2024-04-29 人工智能

711阅读

颜水成挂帅，奠定「通用视觉多模态大模型」终极形态！一统理解/生成/分割/编辑

近日，颜水成教授团队联合发布并开源了Vitron通用像素级视觉多模态大语言模型。项...

大数据 2024-04-25 人工智能

963阅读

Mini-Gemini:简单有效的AI框架，增强多模态视觉语言模型

近期，中国香港中文大学和 SmartMore 的研究人员推出了一种名为 Mini-Gemini 的新颖框架，通过增强多模态输入处理来推动 VLMs 的发展。Mini-Gemini 采用了双编码器系统和一种新颖的补丁信息挖掘技术，结合一个特别策划的高质量数据...

大数据 2024-04-01 人工智能

769阅读

HPT官网体验入口 HyperGAI多模态语言开源模型框架免费使用地址

HPT是HyperGAI研究团队推出的新型多模态大型语言模型框架。它具有高效且可扩展地训练大型多模态基础模型的能力，能够理解包括文本、图像、视频等多种输入模态。HPT框架不仅可以从头开始训练，还可以通过现有的预训练视觉编码器和/或大型语言模型进行高效适配。...

大数据 2024-03-20 人工智能

865阅读

零一万物大模型开放平台体验入口 01-ai API接口使用地址

零一万物大模型开放平台是一个通过API调用获取高品质Yi系列大模型的平台。Yi系列模型基于零一万物的前沿科研成果和高品质数据训练而成，曾在多个权威榜单中获得SOTA表现。主要产品包括yi-34b-chat-0205、yi-34b-chat-200k和y...

人工智能 2024-03-15 人工智能

988阅读

OpenAI大模型上身机器人，原速演示炸场！

OpenAI大模型加持的机器人，深夜来袭！名曰Figure 01，它能听会说，动作灵活。能和人类描述眼前看到的一切：我在桌子上看到了一个红色的苹果，沥水架上面还有几个盘子和一个杯子；然后你站在附近，手放在桌子上。图片听到人类说“想吃东西”，就...

AIGC 2024-03-14 人工智能

762阅读

高通发布AI Hub 为开发者提供了75+优化的AI模型

高通在巴塞罗那举办的MWC上发布了AI Hub，该平台为开发者提供了一系列优化的AI模型，可在Snapdragon和高通平台上运行。这些模型的推出不仅加快了开发速度，还实现了在设备上运行AI的优势。通过在云端主机设备上运行模型，开发者只需几行代码即可实现。...

AIGC 2024-02-26 人工智能

712阅读

清华叉院、理想提出DriveVLM，视觉大语言模型提升自动驾驶能力

与生成式 AI 相比，自动驾驶也是近期 AI 最活跃的研究和开发领域之一。要想构建完全的自动驾驶系统，人们面临的主要挑战是 AI 的场景理解，这会涉及到复杂、不可预测的场景，例如恶劣天气、复杂的道路布局和不可预见的人类行为。现有的自动驾驶系统通常包括...

大数据 2024-02-23 人工智能

833阅读

如何免费访问和使用Gemini API？

Gemini是谷歌开发的一个新模型。有了Gemini可以为查询提供图像、音频和文本，获得几乎完美的答案。我们在本教程中将学习Gemini API以及如何在机器上设置它。我们还将探究各种Python API函数，包括文本生成和图像理解。 Gemini A...

大数据 2024-02-18 人工智能

2179阅读

「天工2.0」MoE大模型发布

2月6日，昆仑万维正式发布新版MoE大语言模型「天工2.0」与新版「天工AI智能助手」APP，这是国内首个搭载MoE架构并面向全体C端用户免费开放的千亿级参数大语言模型AI应用。用户即日起可在各手机应用市场下载「天工AI智能助手」APP，体验昆仑万维「天...

AIGC 2024-02-06 人工智能

870阅读

InternLM-XComposer2官网体验入口视觉语言AI模型文本图像合成在线使用地址

InternLM-XComposer2是一款领先的视觉语言模型，专注于自由形式文本图像合成与理解。该模型不仅能理解传统的视觉语言，还能从各种输入构建交织的文本图像内容，实现高度可定制的内容创作。InternLM-XComposer2 采用部分LoRA（PL...

AIGC 2024-02-01 人工智能

814阅读

通义千问视觉语言模型Qwen-VL在线体验入口阿里云AI在线使用入口

Qwen-VL是阿里云推出的通用型视觉语言模型，具备强大的视觉理解和多模态推理能力。采用 Transformer 结构，以 7B 参数规模进行预训练，支持 448x448 分辨率，能够端到端处理图像与文本的多模态输入与输出。Qwen-VL在多个视觉基准测试...

生成式AI 2024-01-29 人工智能

1085阅读

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

通义千问的图像推理能力，最近有了大幅提升。 2024年，大模型领域要卷什么? 如果没有思路的话，不妨看看各家大厂都在押注什么方向。最近一段时间，先是 OpenAI 推出 GPT-4V，让大模型拥有了前所未有的图像语义理解能力。谷歌随后跟上，发布的 G...

大数据 2024-01-26 人工智能

794阅读

中文性能反超VLM顶流GPT-4V，阿里Qwen-VL超大杯限免！看图秒写编程视觉难题一眼辨出

【新智元导读】多模态大模型将是AI下一个爆点。最近，通义千问VLM模型换新升级，超大杯性能堪比GPT-4V。最最重要的是，还能限时免费用。最近，通义千问实火。前段时间被网友玩疯的全民舞王，让「AI科目三」频频登上热搜。让甄嬛、慈禧、马斯克、猫主子和兵...

生成式AI 2024-01-26 人工智能

998阅读

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

过去一年，生成式人工智能发展的核心关键词，就是「大」。人们逐渐接受了强化学习先驱 Rich Sutton 充分利用算力「大力出奇迹」的思潮，庞大的数据量是 AI 模型展现出惊人智慧的核心原因。数据规模越大、质量越高、标注越细，模型就能了解到更全面的世界...

大数据 2024-01-25 人工智能

745阅读

Video-LLaMA 论文精读

Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding video-LLaMA 一种用于视频理解的指令调整视听语言模型引言 ...

大数据 2024-01-22 人工智能

944阅读

AI视野：谷歌推几何模型Alpha Geometry；三星发布AI手机Galaxy S24；Runway更新运动笔刷功能；Midjourney v6下周补齐缩放平移等功能

欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/ ????大模型动态谷歌推数学几何...

人工智能 2024-01-18 人工智能

796阅读

【计算机视觉 | 目标检测】术语理解9：AIGC的理解，对比学习，解码器，Mask解码器，耦合蒸馏，半耦合，图像编码器和组合解码器的耦合优化

文章目录一、AIGC的理解二、对比学习三、解码器四、Mask解码器五、耦合蒸馏六、半耦合七、图像编码器和组合解码器的耦合优化一、AIGC的理解 AIGC指的是使用人工智能技术自动生成的各类数字内容,包括文本、图像、...

AIGC 2024-01-14 人工智能

835阅读

谷歌Gemini大逆转？斯坦福Meta华人证明其推理性能强于GPT-3.5

【新智元导读】谷歌放出的Gemini，在对标GPT的道路上似乎一直处于劣势，Gemini真的比GPT-4弱吗?最近，斯坦福和Meta的学者发文为Gemini正名。 Gemini的推理能力，真的比GPT-4弱吗? 此前，谷歌憋出的重磅复仇神器Gemini P...

生成式AI 2024-01-02 人工智能

853阅读

扳回一局！Gemini-Pro多模态能力和GPT-4V不相上下

近期的Gemini-Pro评测报告显示其在多模态领域取得了显著的进展，与GPT-4V不相上下，甚至在某些方面表现更为出色。首先，在多模态专有基准MME上的综合表现中，Gemini-Pro以1933.4的高分超越了GPT-4V，展现出在感知和认知方面的全面优...

生成式AI 2023-12-22 人工智能

760阅读

AIGC大记事【2023-0625】【第五期】：《时代》专访ChatGPT之父：人工智能影响经济还需要很多年

大咖观点：《时代》专访ChatGPT之父：人工智能影响经济还需要很多年孙正义：我每天和ChatGPT聊天，一场巨大革命即将到来，软银“终将统治世界！” 刘慈欣谈 ChatGPT：人类的无能反而是人类最后的屏障 AI时代已来，吴恩达呼吁向每个孩...

生成式AI 2023-12-20 人工智能

864阅读

LLaMA Adapter和LLaMA Adapter V2

LLaMA Adapter论文地址： https://arxiv.org/pdf/2303.16199.pdf LLaMA Adapter V2论文地址： https://arxiv.org/pdf/2304.15010.pdf LLaMA Ada...

人工智能 2023-12-10 人工智能

977阅读

国产开源大模型，起风了

科技的浪潮几十年一个轮回，不同的剧本却总是响起相似的鼓点。如果说，一年前ChatGPT的惊艳现身，是属于大模型时代的「iPhone时刻」;那么，7月间Meta将Llama2开源，则被认为是拉开了大模型时代的IOS与安卓之争。但区别于移动互联网时代，大模...

人工智能 2023-12-04 人工智能

872阅读

720亿参数大模型都拿来开源了！通义千问开源全家桶，最小18亿模型端侧都能跑

「Qwen-72B 模型将于 11 月 30 日发布。」前几天，X 平台上的一位网友发布了这样一则消息，消息来源是一段对话。他还说，「如果（新模型）像他们的 14B 模型一样，那将是惊人的。」有位网友转发了帖子并配文「千问模型最近表现不错」。这句话...

大数据 2023-12-01 人工智能

892阅读

280万大模型中文开发者拿到最后一块拼图

2023年5月，微软CEO纳德拉抛出一个惊人数字，未来全球的开发者数量将会达到10亿。那时候Meta的Llama已经开源4个月，但一些国内的开发者发现，从小以英文语料喂养起来的Llama，对中文世界并不友好。这未来的“10亿”开发者里会有多少中文开发者...

生成式AI 2023-12-01 人工智能

799阅读

通义千问720亿参数模型开源，率先实现“全尺寸全模态”开源

12月1日，阿里云通义千问720亿参数模型Qwen-72B宣布开源。该模型基于3T tokens高质量数据训练，在10个权威基准测评中夺得开源模型最优成绩，在部分测评中超越闭源的GPT-3.5和GPT-4。在英语任务上，Qwen-72B在MMLU基准测...

AIGC 2023-12-01 人工智能

928阅读

训练130亿大模型仅3天，北大提出Chat-UniVi统一图片和视频理解

论文地址：https://arxiv.org/pdf/2311.08046.pdf GitHub 地址：https://github.com/PKU-YuanGroup/Chat-UniVi Huggingface 地址：https://huggi...

人工智能 2023-11-29 人工智能

787阅读

提前对齐，视频问答新SOTA！北大全新Video-LLaVA视觉语言大模型，秒懂视频笑点

【新智元导读】最近，来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA，使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能，并在图片、视频的13个基准上达到先进的性能。这个结果表明，统一L...

AIGC 2023-11-23 人工智能

841阅读

2023年初学者入门 CV 指南概述

计算机视觉，是一个迅速发展的领域，将让你大开眼界。它的核心是教计算机像我们人类一样看和理解视觉信息。这份全面指南，将为我们揭示计算机视觉的基本概念，探索流行的应用程序，并瞥见计算机视觉的未来趋势。计算机视觉简介：科学和艺术的奇妙交汇好的，让我们...

大数据 2023-11-09 人工智能

775阅读

AI能理解自己生成的东西吗? 在GPT-4、Midjourney上实验后，有人破案了

从 ChatGPT 到 GPT4，从 DALL・E 2/3 到 Midjourney，生成式 AI 引发了前所未有的全球关注。强大的潜力让人们对 AI 产生了许多期待，但是强大的智能也会引发人们的恐惧和担忧。近期大牛们针对该问题还上演了一场激烈的论战。先...

AIGC 2023-11-05 人工智能

796阅读

GPT-4V搞不明白勾股定理！最新基准测试错误率竟高达90%

近日，马里兰大学发布了一项重要研究，针对GPT-4V视觉模型进行了首个专为其设计的基准测试，名为HallusionBench。这项研究揭示了令人震惊的发现，即GPT-4V的错误率高达90%。这一错误率包括对基本数学原理的误用，比如将勾股定理错误应用于非直角...

AIGC 2023-10-31 人工智能

836阅读

GPT-4V连小学生都不如？最新基准测试错误率竟高达90%：红绿灯认错、勾股定理也不会

GPT-4被吹的神乎其神，作为具备视觉能力的GPT-4版本——GPT-4V，也被大众寄于了厚望。但如果告诉你，初中生都知道的勾股定理，只适用于直角三角形。然而GPT-4V却自信将其用于钝角三角形中计算斜边长度。还有更离谱的，GPT-4V直接犯了致命的...

人工智能 2023-10-31 人工智能

879阅读