-
画个框、输入文字,面包即刻出现:AI开始在3D场景「无中生有」了
现在,通过文本提示和一个2D 边界框,我们就能在3D 场景中生成对象。 看到下面这张图了没?一开始,盘子里是没有东西的,但当你在托盘上画个框,然后在文本框中输入文本「在托盘上添加意大利面包」,魔法就出现了:一个看起来美味可口的面包就出现在你的眼前。 房间...
-
万字总结 | 2023大模型与自动驾驶论文走马观花
本文经自动驾驶之心公众号授权转载,转载请联系出处。 2023年已经匆匆过去大半,不知各位自动驾驶小伙伴今年的工作生活情况是否顺利呢?高阶ADAS方案量产了吗?新的文章和实验进展又是否顺利呢?今天给大家总结了2023年前后的一些自动驾驶结合大模型的开创性...
-
大模型 Dalle2 学习三部曲(一)Latent Diffusion Models学习
引言 Diffusion model大获成功,但是它的短板也很明显,需要大量的计算资源,并且推理速度比较慢。如何才能提升Diffusion model的计算效率。业界有各种各样的改进,无疑Latent Diffusion Models(潜在扩散模...
-
Agent触摸汉堡辨冷热,首次拥有类人感官!UCLA等发布3D多模态交互具身智能大模型
具身智能,是大模型未来应用的一个重要方向。 现在,大模型加持下的智能体,能够参与3D环境,不仅有了听觉视觉,还有了触觉等多种感官能力。 卧室里有什么物体,一眼辨认。 听到门铃响了,LLM便会告诉你家里来客人了。 大模型加持的NPC,在触摸桌子的香蕉后,...
-
AIGC必备知识点:你不可不知的CNN(卷积神经网络)-知识全解析!
Look!?我们的大模型商业化落地产品 ?更多AI资讯请??关注 Free三天集训营助教在线为您火热答疑??? 大家在谈论的卷积神经网络究竟是什么?(Convolutional Neural Network,CNN 是一类主要用于计算机视觉领域的...
-
ReSimAD:如何在没有真实数据的情况下,提升感知模型的泛化性能
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 自动驾驶车辆传感器层面的域变化是很普遍的现象,例如在不同场景和位置的自动驾驶车辆,处在不同光照、天气条件下的自动驾驶车辆,搭载了不同传感器设备的自动驾驶车辆,上述这些...
-
超越BEVFusion!又快又好的极简BEV融合部署方案
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 在算法开发中,激光雷达-相机3D目标检测遇到了过度拟合问题,这是由于违反了一些基本规则。在数据集构建的数据标注方面,本文参考了理论补充,并认为回归任务预测不应涉及来自...
-
实战AI大模型:AIGC及经典模型
今天,人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣,它不仅成为技术发展的核心驱动力,更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习,通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型(简称AI大模型)以其强大的...
-
放射科医生再临危机!国外五大机构联合发布「胸部X光」最新基准
胸部X光(CXR)检查是一种广泛应用于各种疾病的筛查、诊断检查的临床成像方式。 临床诊断中,不仅包括常见的疾病类型,往往还会描述相应严重程度和不确定性,目前的医学图像数据库往往满足于预测疾病类型,而忽视了具有重大临床意义的后者。 最近,德州州立阿灵顿分校...
-
软硬约束下的轨迹如何生成,理论&代码详解!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 本项目代码: github.com/liangwq/robot_motion_planing 轨迹约束中的软硬约束 前面的几篇文章已经介绍了,轨迹约束的本质就是在做带约束的轨迹拟合。输入就是waypo...
-
AI视野:ComfyUI Lora训练节点来了;“ChatGPT之父”结婚;Topazlabs推视频高清放大工具Topaz Video AI4;阿里云推出第八代企业级实例g8i
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ ???AI新鲜事 ComfyUI...
-
告别逐一标注,一个提示实现批量图片分割,高效又准确
Segment Anything Model (SAM 的提出在图像分割领域引起了巨大的关注,其卓越的泛化性能引发了广泛的兴趣。然而,尽管如此,SAM 仍然面临一个无法回避的问题:为了使 SAM 能够准确地分割出目标物体的位置,每张图片都需要手动提供一...
-
超逼真!实时高质量渲染,用于动态城市场景建模的Street Gaussians
本文经自动驾驶之心公众号授权转载,转载请联系出处。 不得不说,技术更新太快了,Nerf在学术界慢慢被替换下去了。Gaussians登场了,浙江大学的工作 论文:Street Gaussians for Modeling Dynamic Urban Sc...
-
只需1080ti,即可在遥感图像中对目标进行像素级定位!代码数据集已开源!
太长不看版 这篇论文介绍了一项新的任务 —— 指向性遥感图像分割(RRSIS),以及一种新的方法 —— 旋转多尺度交互网络(RMSIN)。RRSIS 旨在根据文本描述实现遥感图像中目标对象的像素级定位。为了解决现有数据集规模和范围的限制,本文构建了一个新...
-
攻克图像「文本生成」难题,碾压同级扩散模型!两代TextDiffuser架构深度解析
近年来,文本生成图像领域取得了显著进展,尤其是基于扩散(Diffusion)的图像生成模型在细节层面上展现出逼真的效果。 然而,一个挑战仍然存在:如何将文本准确地融入图像。 生活中存在大量的「含文本图像」,从广告海报到书籍封面,再到路牌指示,都包含了重要...
-
AI视野:自定义ChatGPT商店下周上线;小冰克隆人正式上线;美图大模型上线;普林斯顿大学提出GEO;英伟达发布文生图模型TrailBlazer
新鲜AI产品点击了解:https://top.aibase.com/ ???AI新鲜事 自定义ChatGPT商店下周上线 OpenAI宣布将上线自定义GPT商店,用户可以将自己开发的自定义ChatGPT助手进行分享的平台。这一商店的功能类似于苹果的App...
-
端到端的自动驾驶会取代Apollo、autoware这类框架吗?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 Rethinking the Open-Loop Evaluation of End-to-End Autonomous Driving in nuScenes 作者单位:百度 作者:共一 Jian...
-
还不知道?近20+自动驾驶数据集、榜单和Benchmark汇总
本文经自动驾驶之心公众号授权转载,转载请联系出处。 1.Nuscenes 数据集链接:nuScenes nuscenes数据集下有多个任务,涉及Detection(2D/3D)、Tracking、prediction、激光雷达分割、全景任务、规划控制等...
-
数据闭环!DrivingGaussian:逼真环视数据,驾驶场景重建SOTA
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 北大王选计算机研究所的最新工作,提出了DrivingGaussian,一个高效、有效的动态自动驾驶场景框架。对于具有移动目标的复杂场景,首先使用增量静态3D高斯对整个...
-
超越BEVFusion!Lift-Attend-Splat:最新BEV LV融合方案
本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文:Lift-Attend-Splat: Bird’s-eye-view camera-lidar fusion using transformers 链接:https://arxiv.org/pd...
-
Tracking Any Object Amodally :让AI像人一样可以追踪任何对象
Tracking Any Object Amodally是由卡内基梅隆大学和丰田研究所开发的项目使得人工智能能够像人一样追踪物体的整体,即使在部分遮挡或不完全可见的情况下也能理解其完整结构。 在这个项目中,计算机被训练成能够“理解”并追踪到部分遮挡物体的完...
-
新AI框架DreamSync:结合图像理解模型的反馈 改善文本到图像合成
来自南加州大学、华盛顿大学、巴伊兰大学和谷歌研究团队的研究人员推出了DreamSync,这是一种新型人工智能框架,致力于解决扩散型文本到图像(T2I)模型中对齐和审美吸引力的问题,而无需进行人工标注、修改模型架构或使用强化学习。 DreamSync的方法是...
-
DetZero:Waymo 3D检测榜单第一,媲美人工标注!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 本文提出了一套离线3D物体检测算法框架DetZero,通过在 Waymo 公开数据集上进行全面的研究和评估,DetZero可生成连续且完整的物体轨迹序列,并充分利用长时序点云特征显着提升感知结果的质...
-
用GPT-4V和人类演示训练机器人:眼睛学会了,手也能跟上
如何将语言 / 视觉输入转换为机器人动作? 训练自定义模型的方法已经过时,基于最近大语言模型(LLM)和视觉语言模型(VLM)的技术进展,通过 prompt 工程使用 ChatGPT 或 GPT-4 等通用模型才是时下热门的方法。 这种方法绕过了海量数据...
-
调教 文心一言 生成 AI绘画 提示词(Midjourney)
文章目录 第一步 第二步 第三步 第四步 第五步 第六步 第七步 第八步 文心一言支持连续对话 我瞎玩的非专业哈哈 第一步 你好,今天我们要用扩散模型创建图像。我会给你提供一些信息。行吗? 第二步...
-
大火的4D Radar开源数据汇总
本文经自动驾驶之心公众号授权转载,转载请联系出处。 4D Radar在自动驾驶领域中越来越受关注,在价格和功能上都有比较大的竞争力,相关研究也逐渐open,今天为大家盘点下开源的4D Radar数据,为相关科学研究提供保障! 1Astyx 数据集链接:h...
-
每日学术速递1.30
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 更多Ai资讯: 今天带来的arXiv上最新发表的3篇文本图像的生成论文。 Subjects: cs.LG、cs.Cv、cs.AI、c...
-
聊一聊高精地图的数据问题,无图感知还有哪些坑要踩?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 在自动驾驶领域,高精地图在定位、规划和避碰等方面发挥着至关重要的作用,实现行车安全和高质量路线预测。然而高精地图的构建都是昂贵、复杂的,而且专业性很强,无论是在硬件组成还是软件及其所使用的算法方面。...
-
计算机视觉中目标检测的数据预处理
本文涵盖了在解决计算机视觉中的目标检测问题时,对图像数据执行的预处理步骤。 首先,让我们从计算机视觉中为目标检测选择正确的数据开始。在选择计算机视觉中的目标检测最佳图像时,您需要选择那些在训练强大且准确的模型方面提供最大价值的图像。在选择最佳图像时,考...
-
最新!基于视觉方案的车辆速度、距离估计综述
本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文名称:Vision-based Vehicle Speed Estimation: A Survey 导读 在精确检测车速车距的方案中,视觉方案是非常具有挑战性的,但由于没有昂贵的距离传感器而大幅...
-
GPT-4V在自动驾驶上应用前景如何?面向真实场景的全面测评来了
GPT-4V 的发布让许多计算机视觉(CV)应用看到了新的可能。一些研究人员开始探索 GPT-4V 的实际应用潜力。 最近,一篇题为《On the Road with GPT-4V (ision : Early Explorations of Visua...
-
GPT-4充当“规划师、审计师”,颠覆性双层文生图表模型
DALL-E3、Midjourney、Stable Diffusion等模型展现出了强大的创造能力,通过文本便能生成素描、朋克、3D、二次元等多种类型的高质量图片,但在生成科学图表(柱状、直方、箱线、树状等)方面却略显不足。 这是因为模型在生成图表时会遗漏...
-
Stable Diffusion - API和微服务开发
Stable Diffusion 是一种尖端的开源工具,用于从文本生成图像。 Stable Diffusion Web UI 通过 API 和交互式 UI 打开了许多这些功能。 我们将首先介绍如何使用此 API,然后设置一个示例,将其用作隐私保护微服务以从...
-
Yolo V8:深入探讨其高级功能和新特性
Yolo是一种计算机视觉模型,被广泛认为是目前最强大和最知名的模型之一。这一突破性技术被称为Yolo,它是“You Only Look Once”的缩写,是一种以几乎瞬间处理速度检测物体的方法。Yolo V8技术是这一技术的最新版本,也是对之前版本的一种...
-
使用Python从图像中提取表格
大约一年前,我被分配任务从文件中提取和结构化数据,主要是包含在表格中的数据。我之前对计算机视觉没有了解,并且很难找到一个合适的“即插即用”的解决方案。当时可选的方案要么是基于最新神经网络(NN)的解决方案,这些解决方案庞大而繁琐,要么是基于OpenCV的...
-
解锁 PaddleOCR 的超能力
光学字符识别(OCR)是一项强大的技术,使机器能够从图像或扫描文档中识别和提取文本。OCR 在各个领域都有应用,包括文件数字化、从图像中提取文本以及基于文本的数据分析。在本文中,我们将探讨如何使用 PaddleOCR,一款基于深度学习的先进OCR工具包,...
-
HiLM-D:自动驾驶多模态大语言模型玩出花了
本文经自动驾驶之心公众号授权转载,转载请联系出处。 笔者个人的一些思考 不得不说,最近大模型在学术界火起来了,基于图文匹配的CLIP预训练模型成为近年来在多模态研究领域的经典之作。除此之外,大语言模型的蓬勃发展也进一步为多模态带来了性能提升。自动驾驶领...