边界框第2页 - AIGC资讯

挖掘BEV潜力的边界！DA-BEV：无监督BEV SOTA新方案！

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解今天和大家探讨3D视觉感知领域中的一个特定问题：针对纯视觉的鸟瞰图（BEV）的无监督领Domain Adaptation（Unsupervised Domain Ad...

大数据 2024-02-06 人工智能

1013阅读

Segment Anything论文翻译，SAM模型，SAM论文，SAM论文翻译；一个用于图像分割的新任务、模型和数据集；SA-1B数据集

【论文翻译】- Segment Anything / Model / SAM论文论文链接： https://arxiv.org/pdf/2304.02643.pdf https://ai.facebook.com/research/publica...

大数据 2024-02-05 人工智能

1486阅读

数据为王！如何通过数据一步步构建高效的自动驾驶算法？

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解下一代自动驾驶技术期望依赖于智能感知、预测、规划和低级别控制之间的专门集成和交互。自动驾驶算法性能的上限一直存在巨大的瓶颈，学术界和业界一致认为，克服瓶颈的关键在于以...

生成式AI 2024-02-02 人工智能

1069阅读

近200+自动驾驶数据集全面调研！一览如何数据闭环全流程

写在前面&个人理解自动驾驶技术在硬件和深度学习方法的最新进展中迅速发展，并展现出令人期待的性能。高质量的数据集对于开发可靠的自动驾驶算法至关重要。先前的数据集调研试图回顾这些数据集，但要么集中在有限数量的数据集上，要么缺乏对数据集特征的详细调查...

生成式AI 2024-01-31 人工智能

1334阅读

Camera or Lidar？如何实现鲁棒的3D目标检测？最新综述！

本文经自动驾驶之心公众号授权转载，转载请联系出处。 0. 写在前面&&个人理解自动驾驶系统依赖于先进的感知、决策和控制技术，通过使用各种传感器（如相机、激光雷达、雷达等）来感知周围环境，并利用算法和模型进行实时分析和决策。这使得车辆...

大数据 2024-01-26 人工智能

1019阅读

买个机器人端茶倒水有希望了？Meta、纽约大学造了一个OK-Robot

「xx，去把电视柜上的遥控器帮我拿过来。」在一个家庭环境中，很多家庭成员都不免被支使干这种活儿。甚至有时候，宠物狗也难以幸免。但人总有支使不动的时候，宠物狗也并不一定都能听懂。帮人类干活儿的终极梦想还是寄托在机器人身上。最近，纽约大学、Meta 研发出...

AIGC 2024-01-24 人工智能

830阅读

画个框、输入文字，面包即刻出现：AI开始在3D场景「无中生有」了

现在，通过文本提示和一个2D 边界框，我们就能在3D 场景中生成对象。看到下面这张图了没?一开始，盘子里是没有东西的，但当你在托盘上画个框，然后在文本框中输入文本「在托盘上添加意大利面包」，魔法就出现了:一个看起来美味可口的面包就出现在你的眼前。房间...

生成式AI 2024-01-24 人工智能

934阅读

万字总结 | 2023大模型与自动驾驶论文走马观花

本文经自动驾驶之心公众号授权转载，转载请联系出处。 2023年已经匆匆过去大半，不知各位自动驾驶小伙伴今年的工作生活情况是否顺利呢？高阶ADAS方案量产了吗？新的文章和实验进展又是否顺利呢？今天给大家总结了2023年前后的一些自动驾驶结合大模型的开创性...

生成式AI 2024-01-24 人工智能

1181阅读

大模型 Dalle2 学习三部曲（一）Latent Diffusion Models学习

引言 Diffusion model大获成功，但是它的短板也很明显，需要大量的计算资源，并且推理速度比较慢。如何才能提升Diffusion model的计算效率。业界有各种各样的改进，无疑Latent Diffusion Models（潜在扩散模...

生成式AI 2024-01-23 人工智能

993阅读

Agent触摸汉堡辨冷热，首次拥有类人感官！UCLA等发布3D多模态交互具身智能大模型

具身智能，是大模型未来应用的一个重要方向。现在，大模型加持下的智能体，能够参与3D环境，不仅有了听觉视觉，还有了触觉等多种感官能力。卧室里有什么物体，一眼辨认。听到门铃响了，LLM便会告诉你家里来客人了。大模型加持的NPC，在触摸桌子的香蕉后，...

大数据 2024-01-22 人工智能

1110阅读

AIGC必备知识点：你不可不知的CNN（卷积神经网络）-知识全解析！

Look！?我们的大模型商业化落地产品 ?更多AI资讯请??关注 Free三天集训营助教在线为您火热答疑??‍? 大家在谈论的卷积神经网络究竟是什么？(Convolutional Neural Network，CNN 是一类主要用于计算机视觉领域的...

人工智能 2024-01-19 人工智能

1118阅读

ReSimAD：如何在没有真实数据的情况下，提升感知模型的泛化性能

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解自动驾驶车辆传感器层面的域变化是很普遍的现象，例如在不同场景和位置的自动驾驶车辆，处在不同光照、天气条件下的自动驾驶车辆，搭载了不同传感器设备的自动驾驶车辆，上述这些...

大数据 2024-01-17 人工智能

942阅读

超越BEVFusion！又快又好的极简BEV融合部署方案

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解在算法开发中，激光雷达-相机3D目标检测遇到了过度拟合问题，这是由于违反了一些基本规则。在数据集构建的数据标注方面，本文参考了理论补充，并认为回归任务预测不应涉及来自...

大数据 2024-01-16 人工智能

1079阅读

实战AI大模型：AIGC及经典模型

今天，人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣，它不仅成为技术发展的核心驱动力，更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习，通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型（简称AI大模型）以其强大的...

大数据 2024-01-14 人工智能

1202阅读

放射科医生再临危机！国外五大机构联合发布「胸部X光」最新基准

胸部X光（CXR）检查是一种广泛应用于各种疾病的筛查、诊断检查的临床成像方式。临床诊断中，不仅包括常见的疾病类型，往往还会描述相应严重程度和不确定性，目前的医学图像数据库往往满足于预测疾病类型，而忽视了具有重大临床意义的后者。最近，德州州立阿灵顿分校...

大数据 2024-01-14 人工智能

857阅读

软硬约束下的轨迹如何生成，理论&代码详解！

本文经自动驾驶之心公众号授权转载，转载请联系出处。本项目代码： github.com/liangwq/robot_motion_planing 轨迹约束中的软硬约束前面的几篇文章已经介绍了，轨迹约束的本质就是在做带约束的轨迹拟合。输入就是waypo...

AIGC 2024-01-14 人工智能

997阅读

AI视野：ComfyUI Lora训练节点来了；“ChatGPT之父”结婚；Topazlabs推视频高清放大工具Topaz Video AI4；阿里云推出第八代企业级实例g8i

欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/ ???AI新鲜事 ComfyUI...

人工智能 2024-01-13 人工智能

845阅读

告别逐一标注，一个提示实现批量图片分割，高效又准确

Segment Anything Model (SAM 的提出在图像分割领域引起了巨大的关注，其卓越的泛化性能引发了广泛的兴趣。然而，尽管如此，SAM 仍然面临一个无法回避的问题：为了使 SAM 能够准确地分割出目标物体的位置，每张图片都需要手动提供一...

生成式AI 2024-01-08 人工智能

878阅读

超逼真！实时高质量渲染，用于动态城市场景建模的Street Gaussians

本文经自动驾驶之心公众号授权转载，转载请联系出处。不得不说，技术更新太快了，Nerf在学术界慢慢被替换下去了。Gaussians登场了，浙江大学的工作论文：Street Gaussians for Modeling Dynamic Urban Sc...

人工智能 2024-01-07 人工智能

905阅读

只需1080ti，即可在遥感图像中对目标进行像素级定位！代码数据集已开源！

太长不看版这篇论文介绍了一项新的任务 —— 指向性遥感图像分割（RRSIS），以及一种新的方法 —— 旋转多尺度交互网络（RMSIN）。RRSIS 旨在根据文本描述实现遥感图像中目标对象的像素级定位。为了解决现有数据集规模和范围的限制，本文构建了一个新...

大数据 2024-01-06 人工智能

865阅读

攻克图像「文本生成」难题，碾压同级扩散模型！两代TextDiffuser架构深度解析

近年来，文本生成图像领域取得了显著进展，尤其是基于扩散（Diffusion）的图像生成模型在细节层面上展现出逼真的效果。然而，一个挑战仍然存在：如何将文本准确地融入图像。生活中存在大量的「含文本图像」，从广告海报到书籍封面，再到路牌指示，都包含了重要...

生成式AI 2024-01-06 人工智能

906阅读

AI视野：自定义ChatGPT商店下周上线；小冰克隆人正式上线；美图大模型上线；普林斯顿大学提出GEO；英伟达发布文生图模型TrailBlazer

新鲜AI产品点击了解：https://top.aibase.com/ ???AI新鲜事自定义ChatGPT商店下周上线 OpenAI宣布将上线自定义GPT商店，用户可以将自己开发的自定义ChatGPT助手进行分享的平台。这一商店的功能类似于苹果的App...

大数据 2024-01-05 人工智能

1006阅读

端到端的自动驾驶会取代Apollo、autoware这类框架吗？

本文经自动驾驶之心公众号授权转载，转载请联系出处。 Rethinking the Open-Loop Evaluation of End-to-End Autonomous Driving in nuScenes 作者单位：百度作者：共一 Jian...

人工智能 2024-01-04 人工智能

921阅读

还不知道？近20+自动驾驶数据集、榜单和Benchmark汇总

本文经自动驾驶之心公众号授权转载，转载请联系出处。 1.Nuscenes 数据集链接：nuScenes nuscenes数据集下有多个任务，涉及Detection（2D/3D）、Tracking、prediction、激光雷达分割、全景任务、规划控制等...

大数据 2024-01-02 人工智能

1068阅读

数据闭环！DrivingGaussian：逼真环视数据，驾驶场景重建SOTA

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解北大王选计算机研究所的最新工作，提出了DrivingGaussian，一个高效、有效的动态自动驾驶场景框架。对于具有移动目标的复杂场景，首先使用增量静态3D高斯对整个...

生成式AI 2023-12-28 人工智能

966阅读

超越BEVFusion！Lift-Attend-Splat：最新BEV LV融合方案

本文经自动驾驶之心公众号授权转载，转载请联系出处。论文：Lift-Attend-Splat: Bird’s-eye-view camera-lidar fusion using transformers 链接：https://arxiv.org/pd...

AIGC 2023-12-27 人工智能

847阅读

Tracking Any Object Amodally ：让AI像人一样可以追踪任何对象

Tracking Any Object Amodally是由卡内基梅隆大学和丰田研究所开发的项目使得人工智能能够像人一样追踪物体的整体，即使在部分遮挡或不完全可见的情况下也能理解其完整结构。在这个项目中，计算机被训练成能够“理解”并追踪到部分遮挡物体的完...

人工智能 2023-12-25 人工智能

814阅读

新AI框架DreamSync:结合图像理解模型的反馈改善文本到图像合成

来自南加州大学、华盛顿大学、巴伊兰大学和谷歌研究团队的研究人员推出了DreamSync，这是一种新型人工智能框架，致力于解决扩散型文本到图像（T2I）模型中对齐和审美吸引力的问题，而无需进行人工标注、修改模型架构或使用强化学习。 DreamSync的方法是...

生成式AI 2023-12-06 人工智能

907阅读

DetZero：Waymo 3D检测榜单第一，媲美人工标注！

本文经自动驾驶之心公众号授权转载，转载请联系出处。本文提出了一套离线3D物体检测算法框架DetZero，通过在 Waymo 公开数据集上进行全面的研究和评估，DetZero可生成连续且完整的物体轨迹序列，并充分利用长时序点云特征显着提升感知结果的质...

大数据 2023-12-04 人工智能

873阅读

用GPT-4V和人类演示训练机器人：眼睛学会了，手也能跟上

如何将语言 / 视觉输入转换为机器人动作？训练自定义模型的方法已经过时，基于最近大语言模型（LLM）和视觉语言模型（VLM）的技术进展，通过 prompt 工程使用 ChatGPT 或 GPT-4 等通用模型才是时下热门的方法。这种方法绕过了海量数据...

AIGC 2023-12-03 人工智能

896阅读

调教文心一言生成 AI绘画提示词（Midjourney）

文章目录第一步第二步第三步第四步第五步第六步第七步第八步文心一言支持连续对话我瞎玩的非专业哈哈第一步你好，今天我们要用扩散模型创建图像。我会给你提供一些信息。行吗? 第二步...

生成式AI 2023-11-29 人工智能

1278阅读

大火的4D Radar开源数据汇总

本文经自动驾驶之心公众号授权转载，转载请联系出处。 4D Radar在自动驾驶领域中越来越受关注，在价格和功能上都有比较大的竞争力，相关研究也逐渐open，今天为大家盘点下开源的4D Radar数据，为相关科学研究提供保障！ 1Astyx 数据集链接：h...

人工智能 2023-11-27 人工智能

1131阅读

每日学术速递1.30

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理更多Ai资讯：今天带来的arXiv上最新发表的3篇文本图像的生成论文。 Subjects: cs.LG、cs.Cv、cs.AI、c...

生成式AI 2023-11-26 人工智能

847阅读

聊一聊高精地图的数据问题，无图感知还有哪些坑要踩？

本文经自动驾驶之心公众号授权转载，转载请联系出处。在自动驾驶领域，高精地图在定位、规划和避碰等方面发挥着至关重要的作用，实现行车安全和高质量路线预测。然而高精地图的构建都是昂贵、复杂的，而且专业性很强，无论是在硬件组成还是软件及其所使用的算法方面。...

生成式AI 2023-11-23 人工智能

1095阅读

计算机视觉中目标检测的数据预处理

本文涵盖了在解决计算机视觉中的目标检测问题时，对图像数据执行的预处理步骤。首先，让我们从计算机视觉中为目标检测选择正确的数据开始。在选择计算机视觉中的目标检测最佳图像时，您需要选择那些在训练强大且准确的模型方面提供最大价值的图像。在选择最佳图像时，考...

人工智能 2023-11-22 人工智能

794阅读

GPT-4V在自动驾驶上应用前景如何？面向真实场景的全面测评来了

GPT-4V 的发布让许多计算机视觉（CV）应用看到了新的可能。一些研究人员开始探索 GPT-4V 的实际应用潜力。最近，一篇题为《On the Road with GPT-4V (ision : Early Explorations of Visua...

人工智能 2023-11-20 人工智能

805阅读

GPT-4充当“规划师、审计师”，颠覆性双层文生图表模型

DALL-E3、Midjourney、Stable Diffusion等模型展现出了强大的创造能力，通过文本便能生成素描、朋克、3D、二次元等多种类型的高质量图片，但在生成科学图表（柱状、直方、箱线、树状等）方面却略显不足。这是因为模型在生成图表时会遗漏...

大数据 2023-11-20 人工智能

941阅读

Stable Diffusion - API和微服务开发

Stable Diffusion 是一种尖端的开源工具，用于从文本生成图像。 Stable Diffusion Web UI 通过 API 和交互式 UI 打开了许多这些功能。我们将首先介绍如何使用此 API，然后设置一个示例，将其用作隐私保护微服务以从...

AIGC 2023-11-19 人工智能

1007阅读

Yolo V8：深入探讨其高级功能和新特性

Yolo是一种计算机视觉模型，被广泛认为是目前最强大和最知名的模型之一。这一突破性技术被称为Yolo，它是“You Only Look Once”的缩写，是一种以几乎瞬间处理速度检测物体的方法。Yolo V8技术是这一技术的最新版本，也是对之前版本的一种...

生成式AI 2023-11-15 人工智能

2185阅读

使用Python从图像中提取表格

大约一年前，我被分配任务从文件中提取和结构化数据，主要是包含在表格中的数据。我之前对计算机视觉没有了解，并且很难找到一个合适的“即插即用”的解决方案。当时可选的方案要么是基于最新神经网络（NN）的解决方案，这些解决方案庞大而繁琐，要么是基于OpenCV的...

大数据 2023-11-15 人工智能

1265阅读

解锁 PaddleOCR 的超能力

光学字符识别（OCR）是一项强大的技术，使机器能够从图像或扫描文档中识别和提取文本。OCR 在各个领域都有应用，包括文件数字化、从图像中提取文本以及基于文本的数据分析。在本文中，我们将探讨如何使用 PaddleOCR，一款基于深度学习的先进OCR工具包，...

生成式AI 2023-11-12 人工智能

985阅读

HiLM-D：自动驾驶多模态大语言模型玩出花了

本文经自动驾驶之心公众号授权转载，转载请联系出处。笔者个人的一些思考不得不说，最近大模型在学术界火起来了，基于图文匹配的CLIP预训练模型成为近年来在多模态研究领域的经典之作。除此之外，大语言模型的蓬勃发展也进一步为多模态带来了性能提升。自动驾驶领...

人工智能 2023-10-24 人工智能

1043阅读