-
奥特曼回应一切:GPT-5、董事会宫斗、Ilya当时看到了什么
今年 2 月随着 Sora 的横空出世,大家再一次把目光聚集到 OpenAI。 不仅如此,去年亮相的 ChatGPT、GPT-4,更是把 AI 直接带入到生成式人工智能领域。作为一家引领科技潮流的机构,大家自然对其方方面面都产生好奇。 在最近的一次采访中...
-
Sam Altman亲自回应:GPT-5发布时间、Sora、Q*
3月19日,OpenAI联合创始人兼首席执行官Sam Altman,接受了著名媒体人Lex Fridman的深度访谈。 在这1小时55分钟的访谈中,Altman回应了GPT-5何时发布,7万亿美元造芯片,引发其被罢免离职的Q*,最近马斯克对OpenAI的起...
-
从直观物理学谈到认知科学,Sora不是传统物理模拟器盖棺定论了?
本文篇幅很长,主题很多,但循序渐进,对「Sora 究竟是不是世界模拟器」这一说法给出了非常详实的解读。 最近,OpenAI 的文生视频模型 Sora 爆火。除了能够输出高质量的视频之外,OpenAI 更是将 Sora 定义为一个「世界模拟器」(world...
-
直接干到未来!DriveDreamer-2:世界首个自定义驾驶场景流生成,提升50%!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 世界车型在自动驾驶方面表现出了优势,尤其是在多视图驾驶视频的生成方面。然而,在生成自定义驾驶视频方面仍然存在重大挑战。在本文中,我们提出了DriveDreamer-2...
-
浙大&中科院让Agent学会自我进化,玩德州扑克心机尽显
基于大模型的Agent,已经成为了大型的博弈游戏的高级玩家,而且玩的还是德州扑克、21点这种非完美信息博弈。 来自浙江大学、中科院软件所等机构的研究人员提出了新的Agent进化策略,从而打造了一款会玩德州扑克的“狡猾”智能体Agent-Pro。 通过不断...
-
理解世界,最新综述开启自动驾驶新时代~
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 在快速发展的自动驾驶领域,准确预测未来事件并评估其影响的能力对安全性和效率至关重要,对决策过程至关重要。世界模型已经成为一种变革性的方法,使自动驾驶系统能够合成和解释大...
-
LeCun最新专访:为什么物理世界终将成为LLM的「死穴」?
在人工智能领域,很少有像 Yann LeCun 这样的学者,在 65 岁的年龄还能高度活跃于社交媒体。 一直以来,Yann LeCun 都是以「直言不讳的批评者」形象活跃于人工智能领域。他始终支持开源,并带领 Meta 的团队推出了占据如今开源大模型领域...
-
阿里做了个“绘蛙”,AIGC搞电商营销将成新风口?
“AI电商时代刚刚开始,对谁都是机会,也是挑战”,这是去年11月末,拼多多市值即将追上阿里巴巴时,马云在阿里内网发帖的一部分。毫无疑问,在创始人定调后,AI电商将会成为阿里未来的一个重点。如今阿里的AI电商终于迈出了实质性的一步,一款名为“绘蛙”的AI电商...
-
看了30000小时视频,谷歌模型发现不同于Sora的新方法,可与虚拟世界沉浸交互,向世界模型再进一步
撰稿丨今日晴 出品 | 51CTO技术栈(微信号:blog51cto) 当下,生成式AI的高速发展让人们已经逐渐习惯了各种可以生成文本、图像、音频乃至视频的AI工具。 而最近谷歌DeepMind推出的Genie模型则实现了一种完全不同的功能,它能将图像转...
-
马斯克打算为特斯拉量身定制一个ChatGPT
编译 | 言征 出品 | 51CTO技术栈(微信号:blog51cto) ChatGPT在互联网上引起轰动后不久,2022年12月,特斯拉的帕洛阿尔托总部也在进行类似的开发。该公司自动驾驶系统的工程师达瓦尔·施罗夫向首席执行官埃隆·马斯克提出了一个概念...
-
又给Sora“找茬” LeCun放出「视觉世界模型」论文:这才是AI学习物理世界的关键
LeCun在「视觉世界模型」论文中详细介绍了世界模型在AI学习物理世界中的关键作用。他指出,世界模型相比自回归学习范式能更好地理解世界,掌握物理世界的关键。 论文地址:https://arxiv.org/pdf/2403.00504.pdf 这篇论文着重...
-
怒斥Sora之后,LeCun放出「视觉世界模型」论文,揭示AI学习物理世界的关键
Sora 的发布让整个 AI 领域为之狂欢,但 LeCun 是个例外。 面对 OpenAI 源源不断放出的 Sora 生成视频,LeCun 热衷于寻找其中的失误: 归根结底,LeCun 针对的不是 Sora,而是 OpenAI 从 ChatGPT 到...
-
十年内出现AGI?下一代Gemini能感知环境?DeepMind CEO哈萨比斯畅谈AI
「如果我们在未来十年内拥有类似 AGI 的系统,我不会感到惊讶。」Google DeepMind 联合创始人和 CEO Demis Hassabis 近日在人工智能播客节目 Dwarkesh Podcast 上如是说。 在长达一个小时的节目中,Hassa...
-
大视频模型是世界模型?DeepMind/UC伯克利华人一作:预测下一帧就能改变世界
没人怀疑,OpenAI开年推出的史诗巨作Sora,将改变视频相关领域的内容生态。 但Google DeepMind、UC伯克利和MIT的研究人员更进一步,在他们眼里,「大视频模型」也许能够像世界模型一样,真正的做到理解我们身处的这个世界。 论文地址:h...
-
DeepMind CEO:LLM+树搜索就是AGI技术线路,AI科研依赖工程能力,闭源模型就是比开源安全
谷歌在2月之后突然切换到了996模式,不到一个月的时间抛出了5个模型。 而DeepMind CEO Hassabis本人也是四处为自家的产品站台,曝出了很多幕后的开发内幕。 在他看来,虽然还需要技术突破,但是现在人类通往AGI之路已经出现。 而DeepM...
-
【AIGC大模型】Sora--首个大型视频生成模型
Sora--首个大型视频生成模型 胡锡进于2024年2月20日认为:台当局怂了 新的改变 世界模拟器 视觉数据转换 视频压缩 时空补丁(Spacetime Laten Patches) 视频生成扩展变压器 算法和模型架构 结语 胡锡...
-
2024年自动驾驶标注行业是否会被世界模型所颠覆?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 1.数据标注面临的问题(特别是基于BEV 任务) 随着基于BEV transformer 任务的兴起,随之带来的是对数据的依赖变的越来越重,基于BEV 任务的标注也变得越来越重要。目前来看无论是2D-...
-
Think2Drive:首个用于自动驾驶的基于模型的RL方法(上海交大)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 在CARLA v2中以专家级的熟练程度运行。 题目:Think2Drive: Efficient Reinforcement Learning by Thinking in Latent World...
-
AI视频又炸了!照片+声音变视频,阿里让Sora女主唱歌小李子说RAP
Sora之后,居然还有新的AI视频模型,能惊艳得大家狂转狂赞! 图片 有了它,《狂飙》大反派高启强化身罗翔,都能给大伙儿普法啦(狗头)。 这就是阿里最新推出的基于音频驱动的肖像视频生成框架,EMO(Emote Portrait Alive)。 有了它,...
-
谷歌发布基础世界模型:11B参数,能生成可交互虚拟世界
Sora 问世才不到两个星期,谷歌的世界模型也来了,能力看起来更强大:它生成的虚拟世界「自主可控」。 刚刚,谷歌定义了生成式 AI 的全新范式 —— 生成式交互环境(Genie,Generative Interactive Environments)。G...
-
“谷歌版Sora”被嘲画质好糊,但在世界模拟器上又前进了一步
谷歌110亿参数Genie,用来打造交互虚拟世界,它来了! 划重点:不受视频监督训练;只用给它单张图像,就能提示生成可玩的2D虚拟世界;这个交互式的虚拟世界还自主可控。 但令人撇嘴的点,就是Genie最后出的效果,画质太糊了。 像这样: 或者这样:...
-
每日AI:爆打Sora?谷歌发布世界模型Genie;AI画出奥特曼被判侵权;Mistral Large模型正式发布;OpenAI 秘密项目 Feather曝光
欢迎来到【每日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 🤖📱💼AI应用 爆打Sora?谷歌...
-
南大俞扬深度解读:什么是「世界模型」?
随着媒体狂炒Sora,OpenAI的介绍材料中称Sora是「world simulator」,世界模型这个词又进入视野,但很少有文章来介绍世界模型。 这里回顾一下什么是世界模型,以及讨论Sora是不是world simulator。 什么是world...
-
LeCun怒斥Sora是世界模型,自回归LLM太简化了
最近几天,Sora 成为了全世界关注的焦点。与之相关的一切,都被放大到极致。 Sora 如此出圈,不仅在于它能输出高质量的视频,更在于 OpenAI 将其定义为一个「世界模拟器」(world simulators)。 英伟达高级研究科学家 Jim Fa...
-
Genie官网体验入口 AI游戏世界模型生成工具使用方法
GenieAI是一个利用互联网视频训练的基础世界模型,可以从合成图像、照片甚至素描中生成无限多的可玩(可控制动作的 世界。它的使用范围广泛,可以用于从图像或文本生成整个互动世界,是训练未来通用AI代理的有利工具。 点击前往GenieAI官网体验入口 谁可...
-
爆火Sora的背后 | 聊聊什么是world models!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 随着媒体狂炒Sora,OpenAI的介绍材料中称Sora是 “world simulator”,世界模型这个词又进入视野,但很少有文章来介绍世界模型。这里回顾一下什么是世界模型,以及讨论Sora是不是...
-
Meta、谷歌、特斯拉,竞争对手联合起来吐槽OpenAI!Sora不懂物理世界,它只是GPT3!
编辑 | 言征 出品 | 51CTO技术栈(微信号:blog51cto) 上周,OpenAI的第一个视频生成模型Sora在互联网上疯传。然而,与此同时,来自竞争对手公司的一批人工智能专家和研究人员迅速剖析和批评了Sora的Transformer模型,引...
-
Sora到底懂不懂物理世界? 好用的视频生成AI应用软件工具app免费下载地址
最近,OpenAI发布的视频生成模型Sora引起了全世界的广泛关注。Sora不仅能够生成长达 60 秒的视频,还能理解用户在Prompt中提出的要求,并似乎理解物理世界中人和物体的存在方式。有人认为Sora可能是一个数据驱动的物理引擎,甚至是一个可学习的模...
-
AI视野:大模型最快推理芯片Groq登场;真人视频冒充Sora;Stable Diffusion WebUI Forge推出;字节辟谣推出中文版Sora
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 📰🤖📢AI新鲜事 大模型最快推理芯...
-
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿
最近几天,据说全世界的风投机构开会都在大谈 Sora。自去年初 ChatGPT 引发全科技领域军备竞赛之后,已经没有人愿意在新的 AI 生成视频赛道上落后了。 在这个问题上,人们早有预判,但也始料未及:AI 生成视频,是继文本生成、图像生成以后技术持续发...
-
GitHub热榜第一:百万token上下文,还能生成视频,UC伯克利出品
今日GitHub热榜榜首,是最新的开源世界模型。 上下文窗口长度达到了100万token,持平了谷歌同时推出的王炸Gemini 1.5,伯克利出品。 强大的模型,命名也是简单粗暴——没有任何额外点缀,直接就叫LargeWorldModel(LWM)。...
-
100万token,一次能分析1小时YouTube视频,「大世界模型」火了
最近几天,我们接连被谷歌的多模态模型 Gemini 1.5 以及 OpenAI 的视频生成模型 Sora 所震撼到,前者可以处理的上下文窗口达百万级别,而后者生成的视频能够理解运动中的物理世界,被很多人称为「世界模型」。然而,这些刷屏无数的模型真的能很好...
-
Sora不懂物理世界,翻车神图全网爆笑!LeCun马斯克DeepMind大佬激辩世界模型
大火的Sora,让许多动画、影视行业的人大为恐慌。 不过,今天网上广为流传的这张图,让大家倒是放心了不少。 可以看到,在这个视频中,玻璃杯碎裂的方式十分诡异—— 它被抬到半空中时,桌子上就忽然出现了一滩平整的红色玻璃,随后玻璃杯被摔到桌子上,和这滩玻璃融...
-
Windows、Office直接上手,大模型智能体操作电脑太6了
当我们谈到 AI 助手的未来,很难不想起《钢铁侠》系列中那个令人炫目的 AI 助手贾维斯。贾维斯不仅是托尼・斯塔克的得力助手,更是他与先进科技的沟通者。如今,大模型的出现颠覆了人类使用工具的方式,我们或许离这样的科幻场景又近了一步。想象一下,如果一个多模...
-
周鸿祎谈Sora模型:中美AI差距可能还在加大
2月17日消息,近日,OpenAI 发布了 Sora 模型,该模型可根据用户输入的文本提示词描述,生成一段60秒钟的视频内容。从OpenAI公开的演示视频来看效果非常超现实。 昨日,360董事长周鸿祎在微博发文,谈到OpenAI的文字转视频模型Sora。他...
-
LLM是世界模型的新证据?ChatGPT能理解WiFi等物理信号,并猜出你的位置
大语言模型是否是世界模型? 大语言模型除了在数字世界完成如写作或翻译等任务,它们能否理解并处理物理世界中的信息并进而完成更广泛的任务呢? 最近来自香港科技大学(HKUST)、南洋理工大学(NTU 与加利福尼亚大学洛杉矶分校(UCLA 的研究者们提供了新的思...
-
国内大厂这么玩AI就对了!AI绘画版权攻防「黑魔法」;用AI赚到钱的人做对了什么;Agent机遇全解析;2024生成式AI学习路线图 | ShowMeAI日报
👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🉑 小红书「AI涂鸦」,抖音「AI扩图」,国内大厂找到了AI正确打开方式 配图说明:小红书AI创作工具「此刻」 使用方式:点击首页底部「+」...
-
AI 编程的机会和未来:从 Copilot 到 Code Agent
大模型的快速发展带来了 AI 应用的井喷。统计 GPT 使用情况,编程远超其他成为落地最快、使用率最高的场景。如今,大量程序员已经习惯了在 AI 辅助下进行编程。数据显示,GitHub Copilot 将程序员工作效率提升了 55%,一些实验中 AI 甚至...
-
GPT-4/Gemini大翻车,做旅行攻略成功率≈0%!复旦OSU等华人团队:Agent不会复杂任务规划
AI智能体,是目前学界炙手可热的前沿话题,被众多专家视为大模型发展的下一个方向。 然而,最近复旦、俄亥俄州立大学、宾夕法尼亚州立大学、Meta AI的研究者们发现,AI智能体在现实世界的规划能力还很差。 他们对GPT-4 Turbo、Gemini Pro...
-
大模型真能解决一切吗?关于知识驱动自动驾驶的一些思考
本文经自动驾驶之心公众号授权转载,转载请联系出处。 上个星期受邀在外面做了一次关于「知识驱动自动驾驶」的讲座,刚好借这个机会把之前我和团队的一些学术上的思考整理凝练了一下。感觉里面一些内容还是挺值得拿出来分享&讨论的,所以开这么个帖子把其中一些关...
-
首个环视世界模型DrivingDiffusion: BEV数据和仿真新思路!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 笔者的一些个人思考 在自动驾驶领域,随着BEV-based子任务/端到端方案的发展,高质量的多视图训练数据和相应的仿真场景构建愈发重要。针对当下任务的痛点,“高质量”可以解耦成三个方面: 不同维度...
-
数据为王!如何通过数据一步步构建高效的自动驾驶算法?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 下一代自动驾驶技术期望依赖于智能感知、预测、规划和低级别控制之间的专门集成和交互。自动驾驶算法性能的上限一直存在巨大的瓶颈,学术界和业界一致认为,克服瓶颈的关键在于以...
-
2024年1月17日Arxiv最热论文推荐:清华提出多模态知识检索新框架、MIT新方法大幅提升LLMs的连贯性、浙大新模型助力视频任务新突破、Meta 革新搜索技术、Google革新AI写作
本文整理了今日发表在ArXiv上的AI论文中最热门的TOP5。 论文解读、论文热度排序、论文标签、中文标题、推荐理由和论文摘要均由赛博马良平台(saibomaliang.com)上的智能体 「AI论文解读达人」 提供。 如需查看其他热门论文,欢迎移步 ...
-
从20亿数据中学习物理世界,基于Transformer的通用世界模型成功挑战视频生成
建立会做视频的世界模型,也能通过Transformer来实现了! 来自清华和极佳科技的研究人员联手,推出了全新的视频生成通用世界模型——WorldDreamer。 它可以完成自然场景和自动驾驶场景多种视频生成任务,例如文生视频、图生视频、视频编辑、动作序...
-
强化学习和世界模型中的因果推断
一、世界模型 “世界模型”源于认知科学,在认知科学里面有一个等价的词汇 mental models,也就是心智模型。那么什么是心智模型?在认知科学里有一个假设,认为人在大脑内部会有一个对于真实外在世界的表征,它对于认知这个世界,特别是推理和决策有很关...
-
万字总结 | 2023大模型与自动驾驶论文走马观花
本文经自动驾驶之心公众号授权转载,转载请联系出处。 2023年已经匆匆过去大半,不知各位自动驾驶小伙伴今年的工作生活情况是否顺利呢?高阶ADAS方案量产了吗?新的文章和实验进展又是否顺利呢?今天给大家总结了2023年前后的一些自动驾驶结合大模型的开创性...
-
Yann LeCun:生成模型不适合处理视频,AI得在抽象空间中进行预测
在互联网文本数据即将枯竭之际,很多 AI 研究者将目光转向了视频。但如何让 AI 理解视频数据成了新的难题。 在 2024 世界经济论坛的一次会谈中,图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 被问到了这个问题。他认为,虽然这个问题还...
-
马毅LeCun谢赛宁曝出多模态LLM重大缺陷!开创性研究显著增强视觉理解能力
Sam Altman在各种场合都提到,大语言模型的多模态能力,是未来AI技术能够造福人类的最亟待突破的领域。 那么现在在多模态大模型的视觉功能能否达到与语言功能匹配的水平? 当前多模态模型取得的进步很大程度上归功于大语言模型(LLM)的推理能力。但在视...
-
基础模型+机器人:现在已经走到哪一步了
机器人是一种拥有无尽可能性的技术,尤其是当搭配了智能技术时。近段时间创造了许多变革性应用的大模型有望成为机器人的智慧大脑,帮助机器人感知和理解这个世界并制定决策和进行规划。近日,CMU 的 Yonatan Bisk 和 Google DeepMind...
-
一篇综述,看穿基础模型+机器人的发展路径
机器人是一种拥有无尽可能性的技术,尤其是当搭配了智能技术时。近段时间创造了许多变革性应用的大模型有望成为机器人的智慧大脑,帮助机器人感知和理解这个世界并制定决策和进行规划。 近日,CMU 的 Yonatan Bisk 和 Google DeepMind...