-
YOLOv10来啦!真正实时端到端目标检测
本文经自动驾驶之心公众号授权转载,转载请联系出处。 过去几年里,YOLOs因在计算成本和检测性能之间实现有效平衡而成为实时目标检测领域的主流范式。研究人员针对YOLOs的结构设计、优化目标、数据增强策略等进行了深入探索,并取得了显著进展。然而,对非极大...
-
综述!全面概括基础模型对于推动自动驾驶的重要作用
写在前面&笔者的个人理解 近年来,随着深度学习技术的发展和突破,大规模的基础模型(Foundation Models)在自然语言处理和计算机视觉领域取得了显著性的成果。基础模型在自动驾驶当中的应用也有很大的发展前景,可以提高对于场景的理解和推理。...
-
开源!V2Xverse:上交发布首个面向V2X的仿真平台与端到端模型
本文经自动驾驶之心公众号授权转载,转载请联系出处。 车路协同的同步驾驶数据 车路协同辅助的自动驾驶V2X-AD(Vehicle-to-everything-aided autonomous driving)在提供更安全的驾驶策略方面具有巨大潜力。研...
-
蚂蚁多模态团队在视频多模态方向的技术探索
一、概述 视频多模态检索在蚂蚁内部有着广泛的应用。视频多模态检索具体包括两个方向,一个是视频-文本的语义检索,另外一个是视频-视频的同源检索。 视频-文本的语义检索方向旨在通过文本检索与其语义相近的视频,其检索文本未必在检索到的视频描述中直接出现,但检...
-
小鹏汽车国内首发落地端到端大模型:2025实现类似L4级智驾
快科技5月20日消息,在今日举办的小鹏汽车AI DAY上,小鹏汽车CEO何小鹏官宣端到端大模型上车。 其称:小鹏是国内首个量产上车的端到端大模型,多个网络联合训练、协调一致,解决泛化问题,提升大模型的可解释性及可诊断性,让AI模型成长及迭代更迅速。” 同...
-
AI代驾、AI泊车上线 小鹏汽车再进化:窄小车位大救星
快科技5月20日消息,小鹏汽车AI DAY发布会正在进行中,基于端到端大模型的上车,小鹏汽车首发了AI代驾和AI泊车功能。 据介绍,AI代驾能够主动洞察并且学习司机的驾驶习惯, 能够一键开启通勤智驾, 并且AI代驾也会洞察你的选路偏好,同时AI代驾也会学...
-
Meta首发「变色龙」挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA
GPT-4o的横空出世,再次创立了一个多模态模型发展的新范式! 为什么这么说? OpenAI将其称为「首个『原生』多模态」模型,意味着GPT-4o与以往所有的模型,都不尽相同。 传统的多模态基础模型,通常为每种模态采用特定的「编码器」或「解码器」,将不...
-
GPT-4o干掉初创全网实测,马斯克Karpathy等大佬纷表不服:OpenAI不过如此
OpenAI一夜之间,又干掉了一大批初创公司。 官方公布的全能模型GPT-4o的炸裂演示,即便过去了一天,依旧让全网深陷其中,无法自拔。 凭借实时语音视频对话,GPT-4o已经深入教育、翻译、视频会议等领域的变革。 OpenAI科学家Lilian W...
-
企业拒绝ChatGPT的五大原因
ChatGPT让人们兴奋不已,为什么苹果、亚马逊、摩根大通、德意志银行、三星和埃森哲等这么多企业都禁止使用它呢?主要是由于担心部署像ChatGPT这样的外部大型语言模型(LLM ,可能导致敏感数据被传输和存储在企业安全环境之外。 生成式人工智能(Gen...
-
微软推出 Places 应用,AI 助力团队高效利用办公室空间
IT之家 5 月 13 日消息,后疫情时代,混合办公和灵活办公模式日益普及,员工到办公室的时间减少,同事之间协调见面时间变得更加麻烦。为了解决这一难题,微软推出了一款名为 Places 的全新人工智能应用(目前处于预览阶段),旨在帮助依赖 Outlook...
-
GPT-4o深夜炸场!AI实时视频通话丝滑如人类,Plus功能免费可用,奥特曼:《她》来了
不开玩笑,电影《她》真的来了。 OpenAI最新旗舰大模型GPT-4o,不仅免费可用,能力更是横跨听、看、说,丝滑流畅毫无延迟,就像在打一个视频电话。 现场直播的效果更是炸裂: 它能感受到你的呼吸节奏,也能用比以前更丰富的语气实时回复,甚至可以做到随时打...
-
GPT搜索引擎原型曝光!新模型GPT4-Lite驱动,虽然鸽了发布会但代码已上传
OpenAI发布会前一天,员工集体发疯中……上演大型套娃行为艺术。 与此同时还有小动作不断,比如现在GPT-4的文字描述已不再是“最先进的模型”,而仅仅是“先进的”。 以及被鸽掉的GPT搜索引擎,原型代码上传到ChatGPT了。 黑客“光头哥”Tib...
-
划重点!!因果推断两大算法框架解析
一、整体框架 因果推断的主要任务可分为三类。首先是因果结构的发现,即从数据中识别出变量之间的因果关系。其次是因果效应的估计,即从数据中推断一个变量对另一个变量的影响程度。需要注意的是,这种影响并非指相关性,而是指在对一个变量进行干预时,另一个变量的数值...
-
2024年,端到端自动驾驶在国内是否会有实质性的突破和进展?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 毫不意外,随着Tesla V12在北美大范围推送以及凭借其良好的表现开始获得越来越多用户的认同,端到端自动驾驶也成为了自动驾驶行业里大家最为关注的技术方向。最近有机会和很多行业中的一流工程师,产品经理,...
-
特斯拉机器人进厂打工,马斯克:手的自由度今年将达到22个!
特斯拉机器人Optimus最新视频出炉,已经可以在厂子里打工了。 正常速度下,它分拣电池(特斯拉的4680电池)是这样的: 官方还放出了20倍速下的样子——在小小的“工位”上,拣啊拣啊拣: 这次放出的视频亮点之一在于Optimus在厂子里完成这项工作...
-
特斯拉Optimus人形机器人进厂打工,娴熟分装电池、自我矫正,还能走更远了
特斯拉人形机器人又解锁了新技能! 昨日,Tesla Optimus 官方发布了新的 demo 视频,展示了二代 Optimus 人形机器人的最新进展。 这次,Optimus 开始进厂打工了,在特斯拉电池工厂学会了分装电池,并且比以前走得更快更远更稳了。...
-
具身智能占领中国硅谷?1.23万AI学者集结海淀,填补全球百亿人形机器人空缺
这几天的中关村,已经被机器人占领了! 在2024中关村论坛年会的会场前台,这两位美女机器人的出现,把央视主持人都惊到了。 图片 逼真的动作,灵活的手指,连口型都是搭配的,两位美女机器人给到来的游客们耐心介绍着AI主题日的相关信息,在人群中分外吸睛。 往...
-
闭环永动机!NeuroNCAP:彻底打通端到端闭环仿真链路,已开源!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 本文提出了一种用于测试自动驾驶(AD)软件系统的多功能基于NeRF的仿真器,其设计重点是传感器真实闭环评估和安全关键场景的创建。仿真器从真实世界的驾驶传感器数据序列中...
-
单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源
FP8和更低的浮点数量化精度,不再是H100的“专利”了! 老黄想让大家用INT8/INT4,微软DeepSpeed团队在没有英伟达官方支持的条件下,硬生生在A100上跑起FP6。 测试结果表明,新方法TC-FPx在A100上的FP6量化,速度接近甚至...
-
报告:AI等技术推动中国数据备份与恢复系统市场健康增长
近日,国际数据公司 IDC 发布了《中国数据备份与恢复系统市场季度跟踪报告(2023年)》,数据显示,中国 DR&P 市场在2023年达到7.3亿美元的收入,同比去年同期增长了11.8%,展现出健康的增长势头。 报告指出,这一增长得益于 AI、云...
-
在线地图还能这样?MapTracker:用跟踪实现在线地图新SOTA!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 太强了,在线高精地图还能用跟踪的方式来做!!!本文提出了一种矢量HD建图算法,该算法将在线高精建图公式化为跟踪任务,并使用memory latents的历史来确保随着时...
-
AI刘强东007带货,背后大模型也就10亿参数,京东:我家数字人平均水平
京东创始人刘强东啊,他昨天又加班了。 准确来说,是他的AI数字人形象“采销东哥”,昨晚开启了自己生涯第四场直播。 这次东哥干的是图书采销工作。 与上两次直播不同,这一回直播间不仅有了数字人助理,还有多机位切换等展现方式。与此同时,和留言区及屏幕前观众的互...
-
对话蚂蚁李建国:当前AI写代码相当于L2.5,实现L3后替代50%人类编程
蚂蚁集团代码大模型CodeFuse负责人李建国说道。 当下,AI代码生成领域正在野蛮式生长,巨头涌入,AI员工频频上线企业;首个AI程序员Devin被曝造假…… 面对风起云涌的代码生成变革,李建国给出了这样一个明确论断。 李建国是谁? 清华大学博士,机器...
-
牛津大学最新!Mickey:3D中的2D图像匹配SOTA!(CVPR'24)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面 项目链接:https://nianticlabs.github.io/mickey/ 给定两张图像,可以通过建立图像间的对应关系来估计它们之间的相机相对姿态。通常,这些对应关系是二维到二维的...
-
天工SkyMusic音乐大模型开启公测 天工SkyMusic在哪访问?附天工SkyMusic下载地址
昆仑万维在 2024 年 4 月 17 日宣布,其最新研发的「天工3.0」基座大模型和「天工SkyMusic」音乐大模型现已开启公测。这两款产品的发布,标志着昆仑万维在人工智能领域的技术实力和创新能力再次得到显著...
-
等等我还没上车!LLM赋能端到端全新范式LeGo-Drive,车速拉满
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者个人理解 这篇论文介绍了一种名为LeGo-Drive的基于视觉语言模型的闭环端到端自动驾驶方法。该方法通过预测目标位置和可微分优化器规划轨迹,实现了从导航指令到目标位置的端到端闭...
-
AMD发布第二代Versal自适应SoC:10倍标量性能、全程AI加速
快科技4月9日消息,AMD今天宣布,旗下的Versal自适应片上系统(SoC 产品升级全新第二代,包括面向AI驱动型嵌入式系统的AI Edge 2VE3000系列、面向经典嵌入式系统的Prime系列。 新一代产品很好地平衡了性能、功耗、面积,以及先进的功...
-
叠衣服、擦案板、冲果汁,能做家务的国产机器人终于要来了
将家务全部交给机器人的那一天,或许会比想象中更快到来。 还记得会炒菜的斯坦福 ALOHA 机器人吗?现在,中国的初创公司自变量机器人(X Square)展示了同样令人惊艳的能力,甚至更进一步。 在该公司最新展示的 Demo 中,完全基于大模型自主推理的...
-
小米SU7正式火了,雷军一夜没睡好觉!试驾者纷纷实测:自动驾驶准确,稍微有点“怂”!米粉回应:我们只是长大了,不是发财了!
撰稿 | 言征、诺亚、小伊 出品 | 51CTO技术栈(微信号:blog51cto) 21.59万起,昨晚,雷教主终于结束了“价格猜猜看”的游戏,揭开小米SU7最后谜底。 3月28日,极少并排亮相的“蔚小理”三位掌门人同台出席SU7的正式发布会,可谓半...
-
DriveCoT:全面的开环端到端驾驶数据集和Benchmark
本文经自动驾驶之心公众号授权转载,转载请联系出处。 近年来,端到端自动驾驶技术取得了显著进展,表现出系统简单性和在开环和闭环设置下竞争性驾驶性能的优势。然而,端到端驾驶系统在驾驶决策方面缺乏可解释性和可控性,这阻碍了其在真实世界中的部署。本文利用CAR...
-
TrajectoryNAS:一种用于轨迹预测的神经结构搜索
本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文链接:https://arxiv.org/pdf/2403.11695.pdf 本文介绍了TrajectoryNAS:一种用于轨迹预测的神经结构搜索。自动驾驶系统是一项快速发展的技术,其可以实现...
-
腾讯机器人研究登顶刊!能帮程序员安显示器,像真人一样协同干活
国产机器人新突破: 两只各自独立的机械臂,已经可以丝滑地打配合了! 不信你看这双手拧瓶盖: 拧完再端起杯子倒水: 活灵活现,如真人。 呐,还能搭把手帮程序员安装好显示屏: 甚至接过“同事”手里的大箱子: 可以说是各种几何和物理特性的物体都能稳稳h...
-
CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术
视频理解的核心目标在于对时空表示的把握,这存在两个巨大挑战:短视频片段存在大量时空冗余和复杂的时空依赖关系。尽管曾经占主导地位的三维卷积神经网络 (CNN 和视频 Transformer 通过利用局部卷积或长距离注意力有效地应对其中之一的挑战,但它们在...
-
旷视实战大模型:把多模态扎进行业
距离ChatGPT、GPT-4等引爆新一轮人工智能变革的时刻,已经过去了整整一年的时间。在这一年里,国内外大量公司涌入大模型的“斗兽场”,加速大模型技术的迭代与跃迁。 大模型前所未有的通用任务处理能力,让所有人看到了解锁更多应用场景的可能性。各行各业开始...
-
肯睿Cloudera 推出多项集成NVIDIA微服务的功能:解锁数据潜力,加速企业生成式AI应用
肯睿Cloudera亚太区高级副总裁Remus Lim表示:“NVIDIA在人工智能计算领域的领先地位与Cloudera在数据管理领域深厚的专业积累相得益彰。通过这次合作,我们将赋能客户创建出能够产出高度精确数据和见解的模型。这些模型得到企业的信赖,并能...
-
(含代码)利用TensorRT的8位PTQ将Stable Diffusion速度提高 2 倍
利用TensorRT的8位PTQ将Stable Diffusion速度提高 2 倍 在生成人工智能的动态领域中,扩散模型脱颖而出,成为生成带有文本提示的高质量图像的最强大的架构。 像稳定扩散这样的模型已经彻底改变了创意应用。 然而,由于需要迭代去...
-
进一步加速落地:压缩自动驾驶端到端运动规划模型
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:On the Road to Portability: Compressing End-to-End Motion Planner for Autonomous Driving 论文链接:ht...
-
OpenAI大模型上身机器人,原速演示炸场!
OpenAI大模型加持的机器人,深夜来袭! 名曰Figure 01,它能听会说,动作灵活。 能和人类描述眼前看到的一切: 我在桌子上看到了一个红色的苹果,沥水架上面还有几个盘子和一个杯子;然后你站在附近,手放在桌子上。 图片 听到人类说“想吃东西”,就...
-
能说会看会行动,OpenAI机器人,一出手就是王炸
「借助 OpenAI 的能力,Figure 01 现在可以与人全面对话了!」 本周三,半个硅谷都在投的明星机器人创业公司 Figure,发布了全新 OpenAI 大模型加持的机器人 demo。 这家公司在 3 月 1 日刚刚宣布获得 OpenAI 等公...
-
端到端没有数据怎么办?ActiveAD:面向规划的端到端自动驾驶主动学习!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 自动驾驶的端到端可微学习最近已成为一种突出的范式。一个主要瓶颈在于其对高质量标记数据的巨大需求,例如3D框和语义分割,这些数据的手动注释成本是出了名的昂贵。由于AD中样本内的行为往往存在长尾分布这一...
-
首个AI软件工程师震撼硅谷!手握10块IOI金牌,他们铁了心砸掉程序员饭碗
一觉醒来,程序员怕是真要失业了。 首个AI软件工程师一亮相,直接引爆整个科技圈。只需一句指令,它可端到端地处理整个开发项目。 在SWE-bench基准测试中,它无需人类帮助,可解决13.86%的问题。 相比之下,GPT-4只能处理1.74%的问题,且都需...
-
首个AI软件工程师震撼硅谷!手握十块IOI金牌,他们铁了心砸掉程序员饭碗
一觉醒来,程序员怕是真要失业了。 首个AI软件工程师一亮相,直接引爆整个科技圈。只需一句指令,它可端到端地处理整个开发项目。 在SWE-bench基准测试中,它无需人类帮助,可解决13.86%的问题。 相比之下,GPT-4只能处理1.74%的问题,且都...
-
专为训练Llama 3,Meta 4.9万张H100集群细节公布
生成式大模型给人工智能领域带来了重大变革,人们在看到实现通用人工智能(AGI)希望的同时,训练、部署大模型的算力需求也越来越高。 刚刚,Meta 宣布推出两个 24k GPU 集群(共 49152 个 H100),标志着 Meta 为人工智能的未来做出了...
-
AIGC:语音克隆模型Bert-VITS2-2.3部署与实战
1 VITS2模型 1.1 摘要 单阶段文本到语音模型最近被积极研究,其结果优于两阶段管道系统。以往的单阶段模型虽然取得了较大的进展,但在间歇性非自然性、计算效率、对音素转换依赖性强等方面仍有改进的空间。本文提出VITS2,一种单阶段的文本到语音模型...
-
CRM官网体验入口 AI图像处理3D建模神器免费在线使用地址
CRM是一个高保真的单图像到3D纹理网格的生成模型,它通过整合几何先验到网络设计中,能够从单个输入图像生成六个正交视图图像,然后利用卷积U-Net创建高分辨率的三平面(triplane)。CRM进一步使用Flexicubes作为几何表示,便于在纹理网格上进...
-
谷歌具身智能新研究:比RT-2优秀的RT-H来了
随着 GPT-4 等大型语言模型与机器人研究的结合愈发紧密,人工智能正在越来越多地走向现实世界,因此具身智能相关的研究也正受到越来越多的关注。在众多研究项目中,谷歌的「RT」系列机器人始终走在前沿(参见《大模型正在重构机器人,谷歌 Deepmind 这样...
-
AI绘画与虚拟人生成实践(三):让虚拟形象动起来!照片生成说话的视频
书接上回,本篇的目的是结合上篇生成虚拟的女生形象,以及上一篇生成的关于介绍AI绘画领域的脚本,让生成的虚拟形象来念这段文案。先进入正题说明怎么来生成想要的动态视频。 1. Yanderify项目 Yanderify 教程 来实际手把手操作一下这个项...
-
BsinCopilot:Java版端到端大语言模型开发框架
BsinCopilot是基于BsinPaaS开源框架构建的大语言模型应用SaaS服务,借鉴langchain的框架思想,引入 langchian4j组件,微前端微服务的架构设计,可快速助您构建和体验端到端的AI应用。 基本概念 概念 说明...
-
开环端到端自动驾驶中自车状态是你所需要的一切吗?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving? 论文链接:https://arxiv.org/a...
-
2024 年 AI 辅助研发趋势:从研发数字化到 AI + 开发工具 2.0,不止于 Copilot
在上一年里,已经有不少的企业在工具链上落地了生成式 AI,结合我们对于这些企业的分析,以及最近在国内的一些 “新技术” 趋势,诸如于鸿蒙原生应用的初步兴起。从这些案例与趋势中,我们也看到了一些新的可能方向。 结合我们在 LLM as-Copilo...