多模态第10页 - AIGC资讯

谷歌硬刚GPT-4o！60秒视频生成模型虽迟但到，上下文窗口达200万

OpenAI出手再次惊艳世界，谷歌果然坐不住了。 GPT-4o掀起的一片“AGI已至”的惊呼声中，刚刚，Google DeepMind首席执行官哈萨比斯亲自携谷歌版《Her》登场。同样能会还有，不仅能几乎没有延迟地和人类流畅交流，通过摄像头，这个名为P...

人工智能 2024-05-15 人工智能

804阅读

Android 15即将推出：融入谷歌Gemini大模型

快科技5月15日消息，谷歌在I/O大会上宣布，Android 15已融入谷歌Gemini大模型，支持诸如AI语音助理防诈骗、画圈图片搜索、理解图片给出更符合用户需求的答案等功能，Android 15 Beta 2将在明天正式推出。据悉，全新升级后的谷歌G...

AIGC 2024-05-15 人工智能

738阅读

腾讯混元文生图大模型宣布开源：首个中文原生DiT架构

今日，腾讯旗下引人注目的混元文生图大模型（混元DiT）宣布全面开源，这一重要举措标志着人工智能领域的又一里程碑。该模型已在Hugging Face和Github平台上发布，包含完整的模型权重、推理代码和算法，面向全球的企业与个人开发者免费开放商用。腾讯混...

生成式AI 2024-05-14 人工智能

868阅读

微软让MoE长出多个头，大幅提升专家激活率

混合专家（MoE）是个好方法，支持着现在一些非常优秀的大模型，比如谷歌家的 Gemini 1.5 以及备受关注的 Mixtral 8x7B。稀疏混合专家（SMoE）可在不显著增加训练和推理成本的前提下提升模型的能力。比如 Mixtral 8×7B 就是...

人工智能 2024-05-14 人工智能

953阅读

西浦、利物浦大学提出：点云数据增强首个全面综述

本论文的第一作者朱钦峰是西交利物浦大学和利物浦大学联合培养的一年级在读博士，其导师为范磊副教授。他的主要研究方向为语义分割、多模态信息融合、3D视觉、高光谱图像和数据增强。本文是对发表于模式识别领域顶刊Pattern Recognition 2024的...

生成式AI 2024-05-14 人工智能

962阅读

OpenAI模型终于更新！强大视听能力的GPT-4o将面向所有用户，其前身正是神秘的gpt2！

编辑 | 伊风出品 | 51CTO技术栈（微信号：blog51cto）春季终于如约而至！GPT系列的模型终于等到了久违的更新——GPT-4o浮出水面。而且此前颇具神秘气息的“im-also-a-good-gpt2-chatbot”，正是其测试版...

人工智能 2024-05-14 人工智能

849阅读

人工客服要被取代？用GPT-4o模拟处理客服事务，100%流畅毫无AI味

OpenAI于2024年5月13日推出了GPT-4o模型，其中的“O”代表全能（Omni），在人机互动的自然度上取得了显著进步。GPT-4o支持多模态输入和输出，包括语音、视频、图像和代码，能够实时与用户进行无缝交流，理解情感，并展现出幽默个性。该模型的...

人工智能 2024-05-14 人工智能

809阅读

OpenAI春季发布会：这是“Moss”的诞生，我们人类究竟该何去何从

今天，OpenAI又又又又开发布会了。在大众心里，现在也基本上都知道，奥特曼是一个贼能PR的人。每一次的PR的时间点，都拿捏的极其到位，精准的狙击其他厂商。比如说上一次Sora，其实你会发现从头到尾就是一个PR的举动，2月16号发的，特么的快3个月了，...

生成式AI 2024-05-14 人工智能

821阅读

OpenAI发布最新旗舰大模型GPT-4o：免费试用价格五折速度提高一倍

GPT-4o具体特性一览: 站长之家（ChinaZ.com）5月14日消息:今日凌晨，OpenAI发布了最新旗舰大模型GPT-4o。这款全能AI不仅免费可用，而且具备横跨听图片、看图片、说图片的多项能力，为用户带来如视频电话般丝滑流畅的交流体验。 O...

AIGC 2024-05-14 人工智能

834阅读

vivo连续三年拿下国产第一，蓝心大模型全面升级

5月13日19:00，影像新蓝图暨X系列新品发布会正式开始。首先，vivo产品副总裁黄韬宣布，vivo连续三年拿下国产手机市场份额第一，也是今年一季度国内市场第一。另外vivo X Fold3 系列首销月的销量是上一代的 432%。同时黄韬宣布，vi...

AIGC 2024-05-13 人工智能

710阅读

美国教授用2岁女儿训AI模型登Science！人类幼崽头戴相机训练全新AI

【新智元导读】为训练AI模型，纽约州立大学的一名教授Brenden Lake，竟让自己不到2岁女儿头戴相机收集数据!要知道，Meta训Llama3直接用了15万亿个token，如果Lake真能让AI模型学习人类幼崽，从有限的输入中学习，那LLM的全球数据荒...

AIGC 2024-05-13 人工智能

851阅读

力压Transformer？首篇Mamba综述来了！

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解 Mamba是一种新的选择性结构状态空间模型，在长序列建模任务中表现出色。Mamba通过全局感受野和动态加权，缓解了卷积神经网络的建模约束，并提供了类似于Transfo...

生成式AI 2024-05-13 人工智能

1429阅读

国产大模型：今天起，我们100万tokens只需1元！

昨天刚刚在顶会ICLR作为特邀演讲（Invited Talk）中“国内唯一”的大模型玩家智谱AI，今天又放出了一个好消息: 之前:0.005元 / 千tokens 现在:0.001元 / 千tokens 换算一下，就是1元=1000000tokens...

AIGC 2024-05-12 人工智能

911阅读

小米小爱同学与阿里云通义大模型合作成果已在小米汽车等落地

近日，小米旗下备受欢迎的人工智能助手“小爱同学”与阿里云通义大模型携手合作，共同探索并强化在图片生成、图片理解等多模态AI生成能力的新领域。这一创新技术已经在小米汽车、手机等多类设备上成功落地，为用户带来前所未有的智能体验。以小米汽车SU7为例，这款车...

AIGC 2024-05-11 人工智能

867阅读

图灵巨头现身ICLR，顶会现场疯狂追星LeCun、Bengio！中国团队三大技术趋势引爆AGI新想象

这几天，AI届的盛会——ICLR在维也纳举办。 OpenAI、Meta、谷歌、智谱AI等世界前沿AI科技企业齐聚一堂。现场名流云集，星光耀眼，走几步就能偶遇一位发过颠覆性paper的大咖。毫无意外地，ICLR 2024展厅也变成了追星现场。热闹的气氛...

人工智能 2024-05-11 人工智能

838阅读

14 项任务测下来，GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力？

2023-2024年，以 GPT-4V、Gemini、Claude、LLaVA 为代表的多模态大模型（Multimodal LLMs）已经在文本和图像等多模态内容处理方面表现出了空前的能力，成为技术新浪潮。然而，对于这些模型的评测多集中于语言上的任务，...

人工智能 2024-05-11 人工智能

889阅读

扩散模型与文生视频

一、快速发展的文生视频在当前的人工智能领域，文生视频技术有着引人注目的进展。该技术的核心任务非常明确，就是利用文本指令来控制视频内容的生成。具体而言，用户可以输入特定文本，系统则根据这段文本生成相应的视觉画面。这一过程并不局限于单一的输出，相同的文本可...

生成式AI 2024-05-10 人工智能

867阅读

AI新动能: 数字人三大特征八大场景

随着元宇宙概念的火爆也一同带动了数字人市场的快速升温，据计算全球平均每天都会诞生一个数字人。数字人正成为一股潮流，涌入人们的日常生活——会“捉妖”的虚拟美妆达人柳夜熙，抖音出道三天点赞即超百万，一夜之间成为国内虚拟偶像界的“顶流”；在江苏卫视跨年演唱会上...

AIGC 2024-05-10 人工智能

1168阅读

阿里云发布通义千问2.5版性能赶超GPT-4 Turbo

阿里云今日正式发布通义千问2.5版本，该版本在模型性能上全面赶超了GPT-4Turbo，展现了其强大的技术实力。与此同时，通义千问最新开源的1100亿参数模型Qwen1.5-110B在多个基准测评中取得了卓越成绩，超越了Meta的Llama-3-70B模型...

生成式AI 2024-05-09 人工智能

857阅读

开源领域最强大模型！阿里云发布通义千问2.5：全面赶超GPT-4 Turbo

快科技5月9日消息，阿里云正式发布了通义千问2.5，模型性能全面赶超GPT-4 Turbo，声称地表最强中文大模型。据了解，通义千问2.5最新开源的1100亿参数模型在多个基准测评中均取得了最佳成绩，成功超越了Meta的Llama-3-70B模型，成为开...

生成式AI 2024-05-09 人工智能

828阅读

跟这些头部厂商交流后，终于知道AIGC、大模型持续火爆的原因 | WOT技术大会

2024年，是AIGC出现的第三年，也是其应用落地的元年！站在2024年的当下，有人会产生这样的疑问：为什么AIGC、大模型持续火爆？一个新兴概念之所以持续火爆，无外乎两个原因：往上看，技术本身还有着无穷无尽的发展潜力，远未触顶，国外的OpenAI、...

生成式AI 2024-05-09 人工智能

871阅读

LLM全搞定！OmniDrive：集3D感知、推理规划于一体（英伟达最新）

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解这篇论文致力于解决当前多模态大语言模型 (MLLMs 在自动驾驶应用中存在的关键挑战，尤其是将MLLMs从2D理解扩展到3D空间的问题。由于自动驾驶车辆 (AVs ...

人工智能 2024-05-09 人工智能

1017阅读

小红书的大模型有点怂

AI以及自研大模型的持续火热，让以原创内容为主导的小红书坐不住了。近期，据多个可靠消息来源透露，小红书正悄然加强其在人工智能领域的战略布局。其AI创新领域的领军人物张德兵所领导的大型模型团队，已在内部产品中展开了自研通用大型模型基座“小地瓜”的灰度测试。...

人工智能 2024-05-08 人工智能

949阅读

最懂打工人的AI特助万知来了，李开复在线催更！2分钟手机直出PPT效率×10

【新智元导读】这款最适合中国宝宝体质的AI个人特助，直接让打工效率原地×10!5000页长文档速读，2分钟搞定PPT，表格公式代码全输出。而且，CEO李开复还亲自出任首席体验官，倾听你的反馈。快节奏的生活已经成为当今时代的常态，职场中的我们不仅要应对工作...

生成式AI 2024-05-07 人工智能

904阅读

斯坦福20亿参数端测多模态AI Agent模型大升级，手机汽车机器人都能用

全球首个超小型多模态AI Agent模型Octopus V3，来自斯坦福大学的NEXA AI团队，让Agent更加智能、快速、能耗及成本降低。今年四月份初，NEXA AI推出了备受瞩目的Octopus V2，该模型在函数调用性能上超越了GPT-4，减...

生成式AI 2024-05-07 人工智能

955阅读

OpenAI泄密者，投奔马斯克

刚被OpenAI开除的泄密者，光速投奔马斯克。当事人Pavel Izmailov（以下简称小P），正是Ilya盟友之一，在Ilya领导的超级对齐团队干过。半个月前，小P被指疑似泄露Q*相关机密而被开除。虽然不清楚他泄密了个啥，但当时闹得沸沸扬扬。说...

人工智能 2024-05-07 人工智能

776阅读

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

本文经自动驾驶之心公众号授权转载，转载请联系出处。从一个新颖的3D MLLM架构开始，该架构使用稀疏查询将视觉表示提升和压缩到3D，然后将其输入LLM。题目：OmniDrive: A Holistic LLM-Agent Framework for...

人工智能 2024-05-06 人工智能

916阅读

AI日报：Remini“黏土AI”攻占小红书；HeyGen推自动剪辑工具；多图漫画工具StoryDiffusion来了；AI音乐Udio可生成15分钟音频

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/ 1、这个五一假期，小红书被Remi...

大数据 2024-05-06 人工智能

1434阅读

Brilliant Labs推出Frame：一款集成AI的开源AR眼镜

Brilliant Labs最近发布了一款名为Frame的开源AR眼镜，这款设备结合了人工智能（AI）和增强现实(AR 技术，为用户带来了前所未有的交互体验。 Frame眼镜具备强大的视觉能力，能够实时采集和分析用户所见的图像数据。通过集成Perplex...

生成式AI 2024-05-06 人工智能

851阅读

AI教母李飞飞首次创业！成立“空间智能”公司，已完成种子轮

AI教母李飞飞，创业了! 最新消息，斯坦福大学教授李飞飞正在建立一家AI公司，已完成种子轮融资。公司方向定为“空间智能”——旨在让AI能像人类一样对视觉信息进行高级推理。消息人士表示，这将是该技术的一次飞跃。投资方包括硅谷风投a16z和Radical...

生成式AI 2024-05-04 人工智能

888阅读

美国酝酿AI「登月计划」，陶哲轩领衔62页报告重磅发布！

就在刚刚，陶哲轩领衔的一份62页报告出炉了，总结和预测了AI对半导体、超导体、宇宙基础物理学、生命科学等领域带来的巨大改变。如果这些预测在几十年后能够实现，美国酝酿的AI「登月计划」就将成真。就在刚刚，陶哲轩领衔的一份AI技术对全球研究潜在影响的技术报告...

AIGC 2024-05-02 人工智能

1000阅读

具身智能占领中国硅谷？1.23万AI学者集结海淀，填补全球百亿人形机器人空缺

这几天的中关村，已经被机器人占领了！在2024中关村论坛年会的会场前台，这两位美女机器人的出现，把央视主持人都惊到了。图片逼真的动作，灵活的手指，连口型都是搭配的，两位美女机器人给到来的游客们耐心介绍着AI主题日的相关信息，在人群中分外吸睛。往...

人工智能 2024-04-30 人工智能

824阅读

AI日报：Awaker 1.0写真视频击败Sora？Sora视频被指大量后期；苹果首款AI平板曝光；百万网友围观博主和AI“谈恋爱”

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/ 1、写真视频击败Sora？人大自研...

大数据 2024-04-29 人工智能

971阅读

写真视频击败Sora？人大自研全新多模态大模型Awaker 1.0震撼登场

在人工智能领域，人大系初创公司智子引擎近日发布了一款名为Awaker1.0的全新多模态大模型，标志着向通用人工智能（AGI）迈出了重要一步。该模型在写真视频效果上超越了Sora，展现了其在视觉生成方面的卓越能力。 4月27日，在中关村论坛的通用人工智能平...

AIGC 2024-04-29 人工智能

836阅读

超级智能体生命力觉醒！可自我更新的AI来了，妈妈再也不用担心数据瓶颈难题

哭死啊，全球狂炼大模型，一互联网的数据不够用，根本不够用。训练模型搞得跟《饥饿游戏》似的，全球AI研究者，都在苦恼怎么才能喂饱这群数据大胃王。尤其在多模态任务中，这一问题尤为突出。一筹莫展之际，来自人大系的初创团队，用自家的新模型，率先在国内把“模...

生成式AI 2024-04-29 人工智能

761阅读

中国首个Sora级大模型Vidu：文本生成16秒，1080p高清视频

4月27日，在2024中关村论坛-未来人工智能先锋论坛上，清华大学联合生数科技正式发布了，中国首个长时间、高一致性、高动态性视频大模型——Vidu。据悉，Vidu采用了原创的Diffusion与Transformer融合的架构U-ViT，支持文本生成长达...

人工智能 2024-04-28 人工智能

1259阅读

AI日报：当前最强国产Sora大模型Vidu发布；Kimi Chat移动端升级；通义千问开源首个千亿参数模型；苹果计划与 OpenAI 合作

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/ 1、清华团队发布视频大模型Vidu...

生成式AI 2024-04-28 人工智能

920阅读

元象开源首个多模态大模型XVERSE-V 支持任意宽高比图像输入

元象公司发布了首个多模态大型模型 XVERSE-V，并将其开源。这一模型支持任意宽高比的图像输入，并在多个权威评测中取得了优异的成绩。相比其他开源和闭源模型，XVERSE-V 在综合能力上表现出色。该模型采用了融合整体和局部信息的策略，使其在识别和分析...

AIGC 2024-04-28 人工智能

937阅读

阿里智能体“组装工厂”开源！0经验搞定上万Agent并发

让多智能体开发就像搭积木，阿里巴巴通义实验室开源多智能体编程框架与开发平台AgentScope。该平台专门为多智能体应用开发者打造，旨在提供高易用的编程体验、稳定可靠的运行时保障，并且为开发者提供了分布式和多模态的技术支持。内置了OpenAI、Das...

人工智能 2024-04-28 人工智能

852阅读

清华团队发布视频大模型Vidu 可生成16 秒、1080P 视频

生数科技与清华大学在中关村论坛未来人工智能先锋论坛上共同发布了中国首个长时长、高一致性、高动态性视频大模型——Vidu。这款模型是国内首个达到Sora级别的视频大模型，标志着中国在视频生成技术领域的重要进展。 Vidu的主要特点和技术创新包括: 模型结构...

大数据 2024-04-28 人工智能

895阅读

清华团队国产“Sora”火了：生数科技发布视频大模型「Vidu」

在中关村论坛的未来人工智能先锋论坛中，生数科技与清华大学携手，正式推出了中国首个具备长时长、高一致性及高动态性的视频大模型——“Vidu”。这款引领时代的视频大模型，其核心在于团队原创的Diffusion与Transformer融合的U-ViT架构。它不...

AIGC 2024-04-28 人工智能

864阅读

GPT-4现场被端侧小模型“暴打”，商汤日日新5.0：全面对标GPT-4 Turbo

够刺激，GPT-4竟然当众被“揍”了，甚至连还手的机会都没有：是的，就是在一场《街头霸王》游戏现场PK中，发生了这样的名场面。而且二者还是不在一个“重量级”的那种：绿人：由GPT-4操纵红人：由一个端侧小模型操纵那么这位又小又彪悍的选...

人工智能 2024-04-25 人工智能

834阅读

颜水成挂帅，奠定「通用视觉多模态大模型」终极形态！一统理解/生成/分割/编辑

近日，颜水成教授团队联合发布并开源了Vitron通用像素级视觉多模态大语言模型。项...

大数据 2024-04-25 人工智能

1023阅读

扎克伯格称 Meta 需要数年才能从生成式 AI 赚钱

在 Meta 的首季度财报电话会议上，CEO 马克・扎克伯格向投资者表示，生成式 AI 的热潮已经到来，但不要指望它能很快带来利润。Meta 公司净利润在上个季度已经达到120亿美元，营收为365亿美元，但未来其营收增长有望放缓，同时在 AI 和元宇宙方面...

人工智能 2024-04-25 人工智能

808阅读

国产大模型卷翻机器人！这些火遍全网的机器人，都装上了星火「大脑」

【新智元导读】大模型这把火点燃了整个机器人行业的热情。纵观全世界，过去几个月，国内外大模型大厂和机器人初创公司的合作也是动作不断。看来，机器人的元年真的来了! 大模型，已然卷入机器人领域。 3月初，初创公司Figure发布了首个由OpenAI大模型加持的人...

生成式AI 2024-04-25 人工智能

915阅读

昆仑万维，闯入AI“决赛”

从电子计算机诞生前，符号主义学派与连接主义学派的斗争，到后来深度学习的兴起，再到如今AIGC领域的爆发，AI从理论到实践的跨越过程，亦悄然改写了人类的历史进程。当下，随着一众科技公司竞相拥抱AIGC浪潮，将AI战略常态化，AIGC赛道的中场战事已然打响—...

AIGC 2024-04-25 人工智能

881阅读

挑战拯救痴心“舔狗”，我和大模型都尽力了

天降猛男，大模型化身为 “痴情男大”，等待人类玩家的拯救。一款名为 “拯救舔狗” 的大模型原生小游戏出现了。游戏规则很简单:如果玩家在几轮对话内说服 “他” 放弃追求对他并无青睐的女神，就算挑战成功。听起来并不难，然而游戏源于生活，模型人设是痴情属...

生成式AI 2024-04-24 人工智能

789阅读

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

本文经自动驾驶之心公众号授权转载，转载请联系出处。原标题：Towards Realistic Scene Generation with LiDAR Diffusion Models 论文链接：https://hancyran.github.io/a...

生成式AI 2024-04-24 人工智能

998阅读

Meta智能眼镜用上多模态Llama 3！国内AR眼镜机会来了

科幻大片中的AR黑科技，竟走进了现实！就在刚刚，Meta自家的雷朋智能眼镜，已经开始支持多模态版的Llama 3了！要知道，Llama 3的开源版本还没支持多模态呢。就在最近，小扎还在访谈中承认愿意开源价值100亿美元的模型，不过，如果涉及到产品侧，...

生成式AI 2024-04-24 人工智能

828阅读