实例分割 - AIGC资讯

江大白 | 视觉Transformer与Mamba的创新改进，完美融合（附论文及源码）

本文来源公众号“江大白”，仅用于学术分享，侵权删，干货满满。原文链接：视觉Transformer与Mamba的创新改进，完美融合（附论文及源码）以下文章来源于微信公众号：AI视界引擎作者：AI引擎链接：https://mp.weixin.q...

大数据 2024-08-21 人工智能

790阅读

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024

本文经计算机视觉研究院公众号授权转载，转载请联系出处。论文链接：https://arxiv.org/pdf/2405.08768 代码和预训练模型已开源：https://github.com/LeapLabTHU/EfficientTrain 会议...

生成式AI 2024-05-23 人工智能

395阅读

FisheyeDetNet：首个基于鱼眼相机的目标检测算法

本文经自动驾驶之心公众号授权转载，转载请联系出处。目标检测在自动驾驶系统当中是一个比较成熟的问题，其中行人检测是最早得以部署算法之一。在多数论文当中已经进行了非常全面的研究。然而，利用鱼眼相机进行环视的近距离的感知相对来说研究较少。由于径向畸变较大，标...

生成式AI 2024-04-26 人工智能

639阅读

新加坡国立大学 | 通过语言分割任何3D目标

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解本文研究了具有自由形式语言指令的开放词汇3D实例分割（OV-3DIS）。先前的作品只依赖于注释的基本类别进行训练，对看不见的长尾类别的泛化能力有限。最近的工作通过生成类...

人工智能 2024-04-12 人工智能

515阅读

效率狂增16倍！VRSO：纯视觉静态物体3D标注，打通数据闭环！

本文经自动驾驶之心公众号授权转载，转载请联系出处。标注之殇静态物体检测（Static object detection，SOD），包括交通信号灯、导向牌和交通锥，大多数算法是数据驱动深度神经网络，需要大量的训练数据。现在的做法通常是对大量的训练样本...

AIGC 2024-04-11 人工智能

553阅读

多模态大模型有了统一分割框架，华科PSALM多任务登顶，模型代码全开源

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ 最近，多模态大模型（LMM）取得了一系列引人注目的成就，特别是在视觉 - 语言任务上的表现令人瞩目。它们的成功不仅展现了多模态大模型在各...

AIGC 2024-04-08 人工智能

494阅读

零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步

物体姿态估计在许多现实世界应用中起到至关重要的作用，例如具身智能、机器人灵巧操作和增强现实等。在这一领域中，最先受到关注的任务是实例级别 6D 姿态估计，其需要关于目标物体的带标注数据进行模型训练，使深度模型具有物体特定性，无法迁移应用到新物体上。后来...

大数据 2024-03-25 人工智能

507阅读

一统所有目标感知任务，华科&字节提出目标感知基础模型GLEE

近年来，LLM 已经一统所有文本任务，展现了基础模型的强大潜力。一些视觉基础模型如 CLIP 在多模态理解任务上同样展现出了强大的泛化能力，其统一的视觉语言空间带动了一系列多模态理解、生成、开放词表等任务的发展。然而针对更细粒度的目标级别的感知任务，目前...

生成式AI 2024-03-21 人工智能

477阅读

1.3ms耗时！清华最新开源移动端神经网络架构 RepViT

论文地址：https://arxiv.org/abs/2307.09283 代码地址：https://github.com/THU-MIG/RepViT 可以看出，RepViT 相比于其它主流的移动端 ViT 架构确实时很优异。接下来让我们来看下本工...

AIGC 2024-03-11 人工智能

538阅读

华人CV宗师黄煦涛高徒离职特斯拉，加入OpenAI！专攻多模态模型研究

OpenAI又迎来一位AI大将。最近，华人科学家程博文官宣离职特斯拉，即将加入OpenAI专攻多模态模型的研究。图片今天是我在特斯拉自动驾驶部门的最后一天，这一年半的经历真的很棒：有机会与才华横溢的同事们共事，学习了如何开发出色的产品等等。但我向通...

AIGC 2024-03-11 人工智能

452阅读

「AI透视眼」，三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

遮挡是计算机视觉很基础但依旧未解决的问题之一，因为遮挡意味着视觉信息的缺失，而机器视觉系统却依靠着视觉信息进行感知和理解，并且在现实世界中，物体之间的相互遮挡无处不在。牛津大学 VGG 实验室 Andrew Zisserman 团队最新工作系统性解决了任...

AIGC 2024-03-08 人工智能

491阅读

VPR 2024 满分论文！Meta提出EfficientSAM：快速分割一切！

本文经自动驾驶之心公众号授权转载，转载请联系出处。 EfficientSAM 这篇工作以5/5/5满分收录于CVPR 2024！作者在某社交媒体上分享了该结果，如下图所示： LeCun 图灵奖得主也强烈推荐了该工作！在最近的一项研究中，Meta...

生成式AI 2024-03-02 人工智能

490阅读

YOLOv8官网体验入口 AI计算机视觉目标检测模型免费在线使用地址

YOLOv8是YOLO系列目标检测模型的最新版本。它能够在图像或视频中准确快速地识别和定位多个对象，并实时跟踪它们的移动。相比之前版本，YOLOv8在检测速度和精确度上都有很大提升，同时支持多种额外的计算机视觉任务，如实例分割、姿态估计等。YOLOv8可通...

生成式AI 2024-02-21 人工智能

555阅读

Segment Anything论文翻译，SAM模型，SAM论文，SAM论文翻译；一个用于图像分割的新任务、模型和数据集；SA-1B数据集

【论文翻译】- Segment Anything / Model / SAM论文论文链接： https://arxiv.org/pdf/2304.02643.pdf https://ai.facebook.com/research/publica...

大数据 2024-02-05 人工智能

863阅读

检测路在何方？YOLOv8终极指南

本文经自动驾驶之心公众号授权转载，转载请联系出处。 YOLOv8是计算机视觉领域的最新发展，它是一种用于目标检测、实例分割和分类的最新先进模型。除了对模型架构本身的改进之外，YOLOv8通过一个用于使用YOLO模型的PIP包为开发者提供了一个新的友好界...

大数据 2024-01-29 人工智能

664阅读

迈向分割的大一统！OMG-Seg：一个模型搞定所有分割任务

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者个人思考图像分割已经从单任务分割走到了语义分割、实例分割、全景分割三种分割任务的统一；大模型以及多模态的发展又带来了文本和图像统一，使得跨模态端到端成为可能；追求更高级、更全面...

生成式AI 2024-01-24 人工智能

646阅读

【多模态】14、Segment Anything | Meta 推出超强悍可分割一切的模型 SAM

文章目录一、Intruduction 二、Segment Anything Task 三、Segment Anything Model 四、Segment Anything Data Engine 五、Segment Anything Dat...

大数据 2024-01-20 人工智能

839阅读

视觉Mamba来了：速度提升2.8倍，内存能省87%

号称「全面包围 Transformer」的 Mamba，推出不到两个月就有了高性能的视觉版。本周四，来自华中科技大学、地平线、智源人工智能研究院等机构的研究者提出了 Vision Mamba（Vim）。论文地址：https://arxiv.or...

AIGC 2024-01-19 人工智能

496阅读

视觉高精地图构建的全面回顾！一起看看无图感知都有哪些落地方案（清华&滴滴）

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解近年来，自动驾驶受到越来越多的关注，高精地图成为自动驾驶技术的关键组成部分。这些地图提供了道路网络的复杂细节，并作为车辆定位、导航和决策等关键任务的基本输入。鉴于视觉...

生成式AI 2024-01-14 人工智能

868阅读

深度学习之目标检测中的常用算法

随着深度学习的不断发展，深度卷积神经网络在目标检测领域中的应用愈加广泛，现已被应用于农业、交通和医学等众多领域。与基于特征的传统手工方法相比，基于深度学习的目标检测方法可以学习低级和高级图像特征，有更好的检测精度和泛化能力。什么是目标检测？目标检测...

AIGC 2023-12-19 人工智能

903阅读

数字图像处理的图像操作

图像操作在计算机视觉和图像处理中发挥着至关重要的作用。这些操作对于诸如预处理、增强图像质量和启用高级算法等任务至关重要。在计算机视觉中，诸如调整大小、裁剪、调整亮度/对比度/伽玛和几何变换等操作是基础的。它们允许进行高效的计算、提取感兴趣区域、规范化图像...

大数据 2023-12-14 人工智能

511阅读

GTA6预告片播放过亿，AI三巨头也能秒变GTA匪帮

GTA 新出的游戏预告片看了吗？据说，这个预告片已经破了三项吉尼斯世界纪录，观看次数已经破亿。但如果告诉你，AI 三巨头也可以成为 GTA 里的人物，你还能认出他们吗？ AI 三巨头：Yann LeCun、Geoffrey Hinton 和 Yos...

生成式AI 2023-12-08 人工智能

565阅读

Window下部署使用Stable Diffusion AI开源项目绘图

Window下部署使用Stable Diffusion AI开源项目绘图前言前提条件相关介绍 Stable Diffusion AI绘图下载项目环境要求环境下载运行项目打开网址，即可体验文字生成图像（txt2img）庐山瀑...

生成式AI 2023-12-01 人工智能

525阅读

Stable Diffusion：使用自己的数据集微调训练LoRA模型

Stable Diffusion：使用自己的数据集微调训练LoRA模型前言前提条件相关介绍微调训练LoRA模型下载kohya_ss项目安装kohya_ss项目运行kohya_ss项目准备数据集生成关键词模型参数设置预训...

生成式AI 2023-11-25 人工智能

818阅读

2023年初学者入门 CV 指南概述

计算机视觉，是一个迅速发展的领域，将让你大开眼界。它的核心是教计算机像我们人类一样看和理解视觉信息。这份全面指南，将为我们揭示计算机视觉的基本概念，探索流行的应用程序，并瞥见计算机视觉的未来趋势。计算机视觉简介：科学和艺术的奇妙交汇好的，让我们...

大数据 2023-11-09 人工智能

477阅读

人工智能如何改变城市景观

人工智能(AI 和深度学习无处不在，如今它们具有重塑城市景观的潜力。分析景观图像的深度学习模型可以帮助城市规划者可视化重建计划，以提高美观度并防止代价高昂的错误。然而，为了使这些模型有效，它们需要准确地识别和分类图像中的元素，这是一个称为实例分割的挑战...

AIGC 2023-11-06 人工智能

487阅读