-
AI日报:阿里推新多模态大模型Ovis;Kyutai开源实时语音对话模型Moshi;Apple Intelligence测试版现已开放
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 1、阿里国际推出最新多模态大模型...
-
OpenAI重金押注,机器人NEO世界模型登场!机器人迎来ChatGPT时刻?
【新智元导读】刚刚,OpenAI重金押注的人形机器人初创1X终于揭秘了背后的「世界模型」——它能够根据真实数据,生成针对不同场景的中的行为预测!机器人领域的ChatGPT时刻,或许真的要来了。 月初,OpenAI投下重注人形机器人初创1X,终于放出了NEO...
-
现在的大模型榜单,真就没一个可信的。
现在的大模型榜单上,真的都是水分。 全是作弊的考生,真的。 上周,AI圈有个很炸裂的大模型发布,在全网引起了山呼海啸,一众从业者和媒体尊称它为开源新王。 就是Reflection70B。 在每项基准测试上都超过了 GPT-4o,还只用70B的参数,就击败...
-
专访诺奖得主:大模型是记忆还是理解?
物理学家理查德·费曼曾将自然世界比作众神的游戏,比如国际象棋——我们不知道游戏规则,但却可以观察棋盘,也许只是其中的一角,然后根据这些观察,试图找出游戏规则。 费曼的比喻,道出了科学研究的核心,也生动描绘了许多经济学家的工作,他们同样致力于从纷繁复杂的经济...
-
Gen-3 Alpha有哪些功能免费吗?Runway视频生成AI模型怎么使用方法详细教程指南
Gen-3 Alpha 是什么? Gen-3 Alpha 是 Runway 训练的一系列模型中的首个,它在新的基础设施上训练,专为大规模多模态训练而建。它在保真度、一致性和动作方面相较于 Gen-2 有重大改进,并朝着构建通用世界模型迈进了一步。该模型能够...
-
Runway正式发布全新Gen3模型,AI视频的王,它回来了。
在AI视频被一众新秀,比如Sora、Luma、可灵等等占据注意力的时候,已经有人忘了AI视频领域统治了N久的王者,他叫Runway。 去年的11月份更新了一次Gen2模型模型,然后宣布他们要开始组团队开始进军世界模型之后。 他们就再无动静了。 一晃眼,将...
-
Gen-3 Alpha完全指南:Runway AI视频生成模型使用方法教程与免费体验地址入口
探索Gen-3 Alpha能为你带来哪些改变 为什么选择Gen-3 Alpha? Gen-3 Alpha不仅仅是一款产品——它是一项革命性的技术,致力于在新的基础设施上进行大规模多模态训练,专为创意专业人士、视频制作者和艺术家打造。致力于提供高保真度、一致...
-
规格拉满!Llama和Sora作者都来刷脸的中国AI春晚,还开源了一大堆大模型成果
本周国内最受关注的AI盛事,今日启幕。 活动规格之高,没有哪个关心AI技术发展的人能不为之吸引—— Sora团队负责人Aditya Ramesh与DiT作者谢赛宁同台交流,李开复与张亚勤炉边对话,Llama2/3作者Thomas Scialom,王小川、杨...
-
把整个地球装进神经网络,北航团队推出全球遥感图像生成模型
北航的研究团队,用扩散模型“复刻”了一个地球? 在全球的任意位置,模型都能生成多种分辨率的遥感图像,创造出丰富多样的“平行场景”。 而且地形、气候、植被等复杂的地理特征,也全都考虑到了。 受Google Earth启发,北航的研究团队从俯拍视角出发,将...
-
LeCun新作:分层世界模型,数据驱动的人型机器人控制
有了大模型作为智能上的加持,人型机器人已然成为新的风口。 科幻电影中「安能辨我不是人」的机器人似乎已经越来越近了。 不过,要想像人类一样思考和行动,对于机器人,特别是人型机器人来说,仍是个艰巨的工程问题。 就拿简单的学走路来说,利用强化学习来训练可能会演...
-
具身智能的视觉-语言-动作模型:综述
本文经自动驾驶之心公众号授权转载,转载请联系出处。 24年5月论文“A Survey on Vision-Language-Action Models for Embodied AI”。 深度学习已在计算机视觉、自然语言处理和强化学习等许多领域取得了显著...
-
港科大最新!Vista:一种具有高保真度和多功能可控的世界模型
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability 论文链接...
-
Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积
在 Transformer 大一统的时代,计算机视觉的 CNN 方向还有研究的必要吗? 今年年初,OpenAI 视频大模型 Sora 带火了 Vision Transformer(ViT)架构。此后,关于 ViT 与传统卷积神经网络(CNN)谁更厉害的争...
-
和GPT4等大模型玩狼人杀 人类因讲话没深度被3票出局
最近,一位昵称为「Tore Knabe」的网友在X平台发布的一段视频引发了人们的讨论。视频中,四个AI NPC与一个人类坐在一起,按照“乘务员”的要求互相试探,找出其中隐藏的人类。每个NPC都对应着一款大模型,而五位扮演者分别被赋予了一个历史知名人物作为角...
-
AGI渐行渐近,该加速还是要踩刹车?
人类距离第一个AGI的出现已经越来越近了! 马斯克在今年早些时候预测,AGI可能会在2026年投入使用。DeepMind联合创始人、首席AGI科学家Shane Legg在一次访谈中认为,2028年,人类有50%的概率开发出第一个AGI。然而百度CEO李...
-
和GPT-4这些大模型玩狼人杀,人类因太蠢被票死,真·反向图灵测试
「你看,人类一败涂地了」 这是一次「反向图灵测试」,几个全球最先进的大模型坐在一起,坐着火车唱着歌,但其中混进了人类: 而 AI 的任务,是把这个人类揪出来。 最近,一位昵称「Tore Knabe」的网友在 X 平台发布的一段视频引发了人们的讨论。在视频中...
-
ChatGPT如何「思考」?心理学和神经科学破解AI大模型,Nature发文
美国东北大学的计算机科学家 David Bau 非常熟悉这样一个想法:计算机系统变得如此复杂,以至于很难跟踪它们的运行方式。 「我做了 20 年的软件工程师,研究非常复杂的系统。这个问题总是存在的。」Bau 说。 但 Bau 说,使用传统软件,具有内部知...
-
Hinton揭秘Ilya成长历程:Scaling Law是他学生时代就有的直觉
2003年夏天的一个周日,AI教父Hinton在多伦多大学的办公室里敲代码,突然响起略显莽撞的敲门声。 门外站着一位年轻的学生,说自己整个夏天都在打工炸薯条,但更希望能加入Hinton的实验室工作。 Hinton问,你咋不预约呢?预约了我们才能好好谈谈。...
-
AI大模型日报#0418:Stable Diffusion 3开放API、Meta新研究让AI Agent理解物理世界
导读: 欢迎阅读《AI大模型日报》,内容基于Python爬虫和LLM自动生成。目前采用“文心一言”生成了每条资讯的摘要。标题: 微软刚发布了VASA-1 这个人工智能可以让单张图像具有生动的说话和歌唱能力 摘要: 微软发布了VASA-1人工智能,...
-
AI日报:效果炸裂!Krea Video向所有人开放;阿里花8亿入股Kimi;Arc Search可以打电话了;腾讯智影声音大模型升级
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 1、Krea AI视频生成工具向所...
-
通用世界模型问世:不学习就能生成新领域视频,可实时控制
随着 OpenAI 今年 2 月发布 Sora,世界模型(World Model)再次成为了 AI 领域的热门。 世界模型,即通过预测未来的范式对数字世界和物理世界进行理解,一直以来被认为是通往通用人工智能(AGI)的关键路径之一,与当前大模型推崇的智能...
-
世界模型也扩散!训练出的智能体竟然不错
世界模型提供了一种以安全且样本高效的方式训练强化学习智能体的方法。近期,世界模型主要对离散潜在变量序列进行操作来模拟环境动态。 然而,这种压缩为紧凑离散表征的方式可能会忽略对强化学习很重要的视觉细节。另一方面,扩散模型已成为图像生成的主要方法,对离散潜在...
-
综述!全面概括基础模型对于推动自动驾驶的重要作用
写在前面&笔者的个人理解 近年来,随着深度学习技术的发展和突破,大规模的基础模型(Foundation Models)在自然语言处理和计算机视觉领域取得了显著性的成果。基础模型在自动驾驶当中的应用也有很大的发展前景,可以提高对于场景的理解和推理。...
-
加州大学最新!CarDreamer:全面、灵活的自动驾驶算法测试开源平台
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 为了在复杂的真实世界场景中安全导航,自动驾驶汽车必须能够适应各种道路条件并预测未来事件。基于世界模型的强化学习(RL)已经成为一种有前景的方法,通过学习和预测各种环境...
-
Ilya离职后第一个动作:点赞了这篇论文,网友抢着传看
自Ilya Sutskever官宣离职OpenAI后,他的下一步动作成了大家关注焦点。 甚至有人密切关注着他的一举一动。 这不,Ilya前脚刚刚点赞❤️了一篇新论文—— ——网友们后脚就抢着都看上了: 论文来自MIT,作者提出了一个假说,用一句话总结...
-
MIT最新!多模态LLM真的无所不能吗?大模型能解决一切难题吗?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 本文对自动驾驶领域内多模态大型语言模型(MLLMs)的应用进行了审慎的审视,并对一些常见的假设提出了质疑/验证,重点关注它们通过闭环控制环境中的图像/帧序列推理和解释...
-
DriveWorld:一个预训练模型大幅提升检测+地图+跟踪+运动预测+Occ多个任务性能
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面 以视觉为中心的自动驾驶技术近期因其较低的成本而引起了广泛关注,而预训练对于提取通用表示至关重要。然而,当前的以视觉为中心的预训练通常依赖于2D或3D预训练任务,忽视了自动驾驶作为4D场景理解...
-
一览Occ与自动驾驶的前世今生!首篇综述全面汇总特征增强/量产部署/高效标注三大主题
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 近年来,自动驾驶因其在减轻驾驶员负担和提高驾驶安全方面的潜力而越来越受到关注。基于视觉的三维占用预测是一种新兴的感知任务,适用于具有成本效益的自动驾驶感知系统,它可以...
-
LeCun哈佛演讲PPT放出:唱衰自回归LLM,指明下一代AI方向
机器如何能像人类和动物一样高效地学习?机器如何学习世界运作方式并获得常识?机器如何学习推理和规划…… 当一系列问题被提出时,有人回答自回归 LLM 足以胜任。 然而,知名 AI 学者、图灵奖得主 Yann LeCun 并不这么认为,他一直唱衰自回归 LL...
-
OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架
本文经自动驾驶之心公众号授权转载,转载请联系出处。 从一个新颖的3D MLLM架构开始,该架构使用稀疏查询将视觉表示提升和压缩到3D,然后将其输入LLM。 题目:OmniDrive: A Holistic LLM-Agent Framework for...
-
斯坦福李飞飞首次创业:学术休假两年,瞄准「空间智能」
没想到,在大模型时代,知名「AI 教母」李飞飞也要「创业」了,并完成了种子轮融资。 据路透社独家报道,著名计算机科学家李飞飞正在创建一家初创公司。该公司利用类似人类的视觉数据处理方式,使人工智能能够进行高级推理。 知情人士透露称,李飞飞最近为这家公司进行...
-
强大到不敢给普通人用!史诗级大模型 Sora 如何让众行业一夜变天?
1视频生成模型“新王登基”,Sora 何以成为全球焦点? 2023年以来,多模态视频生成技术取得了显著的进展和突破,从 Runway 到 Pika 再到年末的 VideoPoet,视频生成模型进入到加速阶段。2024年2月,OpenAI 旗下视频生成模型...
-
闭环永动机!NeuroNCAP:彻底打通端到端闭环仿真链路,已开源!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 本文提出了一种用于测试自动驾驶(AD)软件系统的多功能基于NeRF的仿真器,其设计重点是传感器真实闭环评估和安全关键场景的创建。仿真器从真实世界的驾驶传感器数据序列中...
-
关于面向机器人操作的世界模型的一点思考
最近世界模型的火热似乎能在机器人操作中起到一些至关重要的作用。而对于具身智能来说,现阶段manipulation是最需要突破的点。特别是针对以下long horizon的任务,如何构建机器人“小脑”,来实现各种复杂的操作要求,是当下最需要解决的问题。 是...
-
终局之战!OpenAI Sora大佬专访:AI视频模型仍处在GPT-1时代
【新智元导读】Sora一出,谁与争锋!近日,Sora团队的三位负责人Aditya Ramesh、Tim Brooks和Bill Peebles接受了采访,解读了Sora在模拟现实、预测结果和丰富人类体验等方面带来的变革。 对于视频生成领域,大家一致的看法就...
-
LiDAR仿真新思路 | LidarDM:助力4D世界生成,仿真杀器~
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:LidarDM: Generative LiDAR Simulation in a Generated World 论文链接:https://arxiv.org/pdf/2404.02903....
-
扩散模型如何帮助创建更好的强化学习系统
想了解更多AIGC的内容,请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 扩散模型以其令人印象深刻的生成高质量图像的能力而闻名,它们是流行的文本到图像模型(例如DALL-E、Stable Diffusion和...
-
「大模型+强化学习」最新综述!港中文深圳130余篇论文:详解四条主流技术路线
强化学习(RL)通过与环境交互的试错反馈来优化顺序决策问题。 虽然RL在允许大量试错的复杂电子游戏环境中实现了超越人类的决策能力(例如王者荣耀,Dota 2等),但很难在包含大量自然语言和视觉图像的现实复杂应用中落地,原因包括但不限于:数据获取困难、样本...
-
每周AI新闻(2024年第11周)Meta公布Llama 3集群细节 | Sora将于年内推出 | 全球首个AI软件工程师发布
这里是陌小北,一个正在研究硅基生命的碳基生命。正在努力成为写代码的里面背诗最多的,背诗的里面最会写段子的,写段子的里面代码写得最好的…厨子。 每周日解读每周AI大事件。 欢迎关注同名公众号【陌北有棵树】,关注AI最新技术与资讯。 大厂动向 M...
-
攻陷短视频后,Sora将需要72万块H100 GPU
OpenAI 推出的 Sora 模型能够在各种场景下生成极其逼真的视频,吸引了全世界的目光。 近日,投资机构 factorial funds 发表了一篇博文,深入探讨了 Sora 背后的一些技术细节,并对这些视频模型可能产生影响进行了探讨。 最后,文中还...
-
首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作
想了解更多AIGC的内容, 请访问: 51CTO AI.x社区 https://www.51cto.com/aigc/ 首个开源「世界模型」来了! 来自UC berkeley的研究人员发布并开源了LWM(LargeWorldModel)系列模型: 论文...
-
首个开源世界模型LWM :百万级上下文,长视频理解超GPT-4
来自加州大学伯克利分校的研究人员最近发布并开源了首个世界模型,被称为 LWM(LargeWorldModel)系列模型。这一模型采用了大量视频和书籍数据集,通过 RingAttention 技术实现了长序列的可扩展训练,使得模型的上下文长度达到了1M to...
-
叠衣服、擦案板、冲果汁,能做家务的国产机器人终于要来了
将家务全部交给机器人的那一天,或许会比想象中更快到来。 还记得会炒菜的斯坦福 ALOHA 机器人吗?现在,中国的初创公司自变量机器人(X Square)展示了同样令人惊艳的能力,甚至更进一步。 在该公司最新展示的 Demo 中,完全基于大模型自主推理的...
-
大语言模型中常用的旋转位置编码RoPE详解:为什么它比绝对或相对位置编码更好?
自 2017 年发表“ Attention Is All You Need ”论文以来,Transformer 架构一直是自然语言处理 (NLP 领域的基石。它的设计多年来基本没有变化,随着旋转位置编码 (RoPE 的引入,2022年标志着该领域的...
-
从OpenAI出走的华人团队,将如何创造物理世界的ChatGPT时刻?
撰文丨伊风 出品 | 51CTO技术栈(微信号:blog51cto) 辛苦工作一天后,你躺在沙发上,有一个能为你递上香蕉的机器人怎么样?这听起来就像拥有一只会叼拖鞋的狗狗一样酷! RFM-1 可以!他可以听懂你的指令,在一堆食物中准确的识别香蕉并进行...
-
等不及公开了!最新Sora模型细节揭秘:预计峰值需要72万块H100!每月至少4200块H100!缩放定律依旧有效!
作者 | Matthias·Plappert 翻译 | 言征 出品 | 51CTO技术栈(微信号:blog51cto) OpenAI的Sora模型能够生成各种场景的极其逼真的视频,令世界惊叹不已。除了一篇公开的技术报告和TikTok上放出的酷炫视频,就...
-
3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑
在最近的研究中,视觉-语言-动作(VLA,vision-language-action)模型的输入基本都是2D数据,没有集成更通用的3D物理世界。 此外,现有的模型通过学习「感知到动作的直接映射」来进行动作预测,忽略了世界的动态性,以及动作和动态之间的关...
-
能玩3D游戏的AI玩家!谷歌新智能体SIMA发布,但水平还在“新手村”
编译 | 伊风 出品 | 51CTO技术栈(微信号:blog51cto) 世界上第一位AI程序员Devin诞生,让大家纷纷转发感叹“饭碗保不住”。 一转眼,具有里程碑意义的AI玩家也来了!谷歌(Google)旗下DeepMind发布新智能体SIMA。 S...
-
Sora三巨头首次解密幕后信息,CTO:最快年内开放
“Sora最快今年内开放公测。” 在一场访谈中,OpenAI CTO Mira Murati亲自透露了这一消息。 短短10分钟里,Sora技术细节、进展、规划等当下最热议的问题,都有了更进一步解答: 生成20秒的720P视频只需几分钟 计算资源远超C...
-
ChatGPT之父Altman两小时对谈,首聊GPT-5何时发布、llya去哪里了、Q*究竟是什么……
Altman做客油管博主Lex Fridman科技博客 ,被追问了一个又一个辛辣的问题。 长达两个小时的对谈,奥特曼从OpenAI宫斗、马斯克诉讼、Sora,一直聊到AGI与外星文明! 本文重点梳理了长对谈中的精彩部分,对于科技圈的焦点议题,奥特曼是...