语义分割第2页 - AIGC资讯

解锁SLAM新纪元！基于NeRF和3D GS方法综述

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解在过去的二十年里，SLAM领域的研究经历了重大的发展，突出了其在实现未知环境的自主探索方面的关键作用。这种演变从手工制作的方法到深度学习时代，再到最近专注于神经辐射场...

人工智能 2024-02-29 人工智能

1250阅读

OccNeRF：完全无需激光雷达数据监督

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人总结近年来，3D 占据预测（3D Occupancy Prediction）任务因其独特的优势获得了学界及业界的广泛关注。3D 占据预测通过重建周围环境的 3D 结构为自...

AIGC 2024-02-07 人工智能

990阅读

三篇论文解决「语义分割的优化和评估」难题！鲁汶/清华/牛津等联合提出全新方法

优化语义分割模型常用的损失有Soft Jaccard损失，Soft Dice损失和Soft Tversky损失，但它们都和软标签不兼容，所以无法支持一些重要的训练技术（例如标签平滑，知识蒸馏，半监督学习，多标注员等）。另一方面，语义分割常用的评价指标...

大数据 2024-02-06 人工智能

865阅读

【多模态】13、Vision-Language 模型在视觉任务中的调研

文章目录一、简介二、基础知识 2.1 视觉任务的训练策略 2.2 VLM 基础 2.2.1 网络结构 2.2.2 预训练目标函数 2.2.3 评估和下游任务 2.3 数据集三、迁移学习 3.1 使用 prompt tunin...

生成式AI 2024-02-05 人工智能

1173阅读

新书速览|AI绘画：Stable Diffusion从入门到精通

AI绘画大潮来袭，创意触手可及！本书简介《AI绘画：Stable Diffusion从入门到精通》从艺术教育工作者和现代艺术设计师的视角，系统地介绍了人工智能绘画的相关知识与应用技能。全书内容涵盖了AI绘画的发展、原理、工具与应用，并重点围...

生成式AI 2024-02-01 人工智能

1036阅读

Depth Anything：释放大规模无标注数据的深度估计

本文经自动驾驶之心公众号授权转载，转载请联系出处。 24年1月论文“Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data“，来自香港大学、字节、浙江实验室和浙江大学。这项...

AIGC 2024-02-01 人工智能

923阅读

近200+自动驾驶数据集全面调研！一览如何数据闭环全流程

写在前面&个人理解自动驾驶技术在硬件和深度学习方法的最新进展中迅速发展，并展现出令人期待的性能。高质量的数据集对于开发可靠的自动驾驶算法至关重要。先前的数据集调研试图回顾这些数据集，但要么集中在有限数量的数据集上，要么缺乏对数据集特征的详细调查...

生成式AI 2024-01-31 人工智能

1334阅读

谷歌AI研究提出 SpatialVLM：一种数据合成和预训练机制，以增强视觉语言模型 VLM 空间推理能力

谷歌AI研究团队最近提出了SpatialVLM，这是一种旨在增强视觉语言模型（VLMs）空间推理能力的创新系统。尽管先进的模型如GPT-4V在人工智能驱动任务中取得了显著进展，但它们在空间推理方面仍存在显著局限。空间推理涉及理解物体在三维空间中的位置以及...

生成式AI 2024-01-29 人工智能

1031阅读

迈向分割的大一统！OMG-Seg：一个模型搞定所有分割任务

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者个人思考图像分割已经从单任务分割走到了语义分割、实例分割、全景分割三种分割任务的统一；大模型以及多模态的发展又带来了文本和图像统一，使得跨模态端到端成为可能；追求更高级、更全面...

生成式AI 2024-01-24 人工智能

1175阅读

纪念碑谷式错觉图像都被「看穿」，港大、TikTok的Depth Anything火了

人类有两只眼睛来估计视觉环境的深度信息，但机器人和 VR 头社等设备却往往没有这样的「配置」，往往只能靠单个摄像头或单张图像来估计深度。这个任务也被称为单目深度估计（MDE）。近日，一种可有效利用大规模无标注图像的新 MDE 模型 Depth Any...

人工智能 2024-01-23 人工智能

865阅读

[AI绘图教程]stable-diffusion webui加载模型与插件. 实战AI绘画

之前讲了stable diffusion webui搭建,这里主要介绍使用方法以及模型,扩展等. 模型下载主要下载网址 HuggingFace：Stable Diffusion、ControlNet的官方仓库。 Civitai：里面多是Lo...

人工智能 2024-01-22 人工智能

1130阅读

视觉Mamba模型的Swin时刻，中国科学院、华为等推出VMamba

Transformer 在大模型领域的地位可谓是难以撼动。不过，这个AI 大模型的主流架构在模型规模的扩展和需要处理的序列变长后，局限性也愈发凸显了。Mamba的出现，正在强力改变着这一切。它优秀的性能立刻引爆了AI圈。上周四， Vision Mamb...

人工智能 2024-01-22 人工智能

962阅读

随心玩玩（十三）Stable Diffusion初窥门径

写在前面：时代在进步，技术在进步，赶紧跑来玩玩文章目录简介配置要求安装部署下载模型启动ui 插件安装教程分区提示词插件 Adetailer插件提示词的分步采样采样器选择采样器的收敛性 UniPC采样器高分辨率修...

大数据 2024-01-22 人工智能

2059阅读

【多模态】14、Segment Anything | Meta 推出超强悍可分割一切的模型 SAM

文章目录一、Intruduction 二、Segment Anything Task 三、Segment Anything Model 四、Segment Anything Data Engine 五、Segment Anything Dat...

大数据 2024-01-20 人工智能

2140阅读

视觉Mamba来了：速度提升2.8倍，内存能省87%

号称「全面包围 Transformer」的 Mamba，推出不到两个月就有了高性能的视觉版。本周四，来自华中科技大学、地平线、智源人工智能研究院等机构的研究者提出了 Vision Mamba（Vim）。论文地址：https://arxiv.or...

AIGC 2024-01-19 人工智能

833阅读

扩散模型图像理解力刷新SOTA！字节复旦团队提出全新「元提示」策略

Text-to-image（T2I）扩散模型在生成高清晰度图像方面显示出了卓越的能力，这一成就得益于其在大规模图像-文本对上的预训练。这引发了一个自然的问题：扩散模型是否可以用于解决视觉感知任务？近期，来自字节跳动和复旦大学的技术团队提出了一种简单...

生成式AI 2024-01-16 人工智能

825阅读

stable diffusion实践操作-writing

文章目录前言一、优点 1.1、免费开源 1.2、拥有强大的外接模型二、组成要素 2.1 底模 2.2 风格 2.3 提示词 2.4 参数配置三、生图原理四、下载链接实践正文一、安装 1.1 电脑硬件配置查看 1.2...

AIGC 2024-01-16 人工智能

1120阅读

超越BEVFusion！又快又好的极简BEV融合部署方案

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解在算法开发中，激光雷达-相机3D目标检测遇到了过度拟合问题，这是由于违反了一些基本规则。在数据集构建的数据标注方面，本文参考了理论补充，并认为回归任务预测不应涉及来自...

大数据 2024-01-16 人工智能

1079阅读

RoboFusion：通过SAM实现稳健的多模态3D检测

本文经自动驾驶之心公众号授权转载，转载请联系出处。论文链接：https://arxiv.org/pdf/2401.03907.pdf 多模态3D检测器致力于探索安全可靠的自动驾驶感知系统。然而，尽管在干净的基准数据集上实现了最先进的（SOTA）性能，...

大数据 2024-01-15 人工智能

945阅读

【AIGC】大模型协作系统 HuggingGPT 深度解析

欢迎关注【youcans的 AIGC 学习笔记】原创作品【AIGC】大模型协作系统 HuggingGPT 深度解析 1. 摘要 2. 前言 3. HugginGPT 大模型协作系统 3.1 任务规划 3.2 模型选择 3.3 任务执行...

人工智能 2024-01-15 人工智能

1050阅读

视觉高精地图构建的全面回顾！一起看看无图感知都有哪些落地方案（清华&滴滴）

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解近年来，自动驾驶受到越来越多的关注，高精地图成为自动驾驶技术的关键组成部分。这些地图提供了道路网络的复杂细节，并作为车辆定位、导航和决策等关键任务的基本输入。鉴于视觉...

生成式AI 2024-01-14 人工智能

1329阅读

Stable Diffusion 文生图技术原理

图像生成模型简介图片生成领域来说，有四大主流生成模型：生成对抗模型（GAN）、变分自动编码器（VAE）、流模型（Flow based Model）、扩散模型（Diffusion Model）。从2022年开始，主要爆火的图片生成模型是Diffusi...

人工智能 2024-01-08 人工智能

1961阅读

【AI】Stable-Diffusion-WebUI使用指南

注：csdn对图片有审核，审核还很奇葩，线稿都能违规，为保证完整的阅读体验建议移步至个人博客阅读最近AI绘画实现了真人照片级绘画水准，导致AI绘画大火，公司也让我研究研究，借此机会正好了解一下深度学习在AIGC(AI Generated Content...

人工智能 2024-01-07 人工智能

1076阅读

卧剿，6万字！30个方向130篇！CVPR 2023 最全 AIGC 论文！一口气读完。

一杯奶茶，成为 AIGC+CV 视觉前沿弄潮儿！ 25个方向！CVPR 2022 GAN论文汇总 35个方向！ICCV 2021 最全GAN论文汇总超110篇！CVPR 2021 最全GAN论文梳理超100篇！CVPR 2020...

人工智能 2024-01-07 人工智能

1323阅读

AI平台：OpenXLab浦源

OpenXLab浦源开放项目应用中心模型中心数据集中心文档中心搜索中文EN创建登录注册人工智能开源开放体系浦源内容平台应用中心探索多领域应用，体验丰富的社区生态AIGC语音计算机视觉自然语言处理多模态技术更多在这里...

生成式AI 2024-01-06 人工智能

1348阅读

谷歌研究团队推新AI方法SynCLR:从合成图像和字幕中学习视觉表征

近期，Google Research和MIT CSAIL共同推出了一项名为SynCLR的新型人工智能方法，该方法旨在通过使用合成图像和字幕，实现对视觉表征的学习，摆脱对真实数据的依赖。 SynCLR的工作原理研究团队首先提出了一个三阶段的方法。首先，在...

大数据 2024-01-05 人工智能

812阅读

LangSplat官网体验入口 AI 3D场景构建软件工具免费下载地址

LangSplat是一款利用CLIP语言嵌入映射到3D高斯分布的工具，用于构建3D语言场景并实现对3D场景的开放词汇量查询。它提高了处理效率，避免了NeRF中的昂贵渲染过程，并且学习到的语言特征能精确捕捉对象边界，提供精确的3D语言场景，无需后处理。Lan...

大数据 2024-01-02 人工智能

883阅读

还不知道？近20+自动驾驶数据集、榜单和Benchmark汇总

本文经自动驾驶之心公众号授权转载，转载请联系出处。 1.Nuscenes 数据集链接：nuScenes nuscenes数据集下有多个任务，涉及Detection（2D/3D）、Tracking、prediction、激光雷达分割、全景任务、规划控制等...

大数据 2024-01-02 人工智能

1068阅读

Stable Diffusion进阶！姥姥都能看懂的ControlNet超全教程

前言 Hello，大家好，言川又来写教程啦！！这是一篇继《外婆都能看懂的 Stable Diffusion 入门教程》教程之后的一篇文章，如果你还没有安装并了解 Stable diffusion 这个软件，那么你一定要先去看看入门教程的文章，然后安装 S...

AIGC 2024-01-01 人工智能

1129阅读

大模型被偷家！CNN搞多模态不弱于Transfromer（腾讯&港中文）

本文经自动驾驶之心公众号授权转载，转载请联系出处。腾讯AI实验室与港中文联合团队提出了一种新的CNN架构，图像识别精度和速度都超过了Transformer架构模型。切换到点云、音频、视频等其他模态，也无需改变模型结构，简单预处理即可接近甚至超越SO...

生成式AI 2023-12-28 人工智能

881阅读

大模型被偷家！腾讯港中文新研究修正认知：CNN搞多模态不弱于Transfromer

在Transformer占据多模态工具半壁江山的时代，大核CNN又“杀了回来”，成为了一匹新的黑马。腾讯AI实验室与港中文联合团队提出了一种新的CNN架构，图像识别精度和速度都超过了Transformer架构模型。切换到点云、音频、视频等其他模态，也无...

生成式AI 2023-12-25 人工智能

900阅读

controlnet1.1模型和预处理器功能详解（各预处理器出稿对比及对应模型说明）

ControlNet 1.1 与 ControlNet 1.0 具有完全相同的体系结构,ControlNet 1.1 包括所有以前的模型，具有改进的稳健性和结果质量，且增加并细化了多个模型。命名规范项目名+版本号+标识+基础模型版本+功能...

人工智能 2023-12-23 人工智能

1143阅读

基于 NNCF 和 Optimum 面向 Intel CPU 对 Stable Diffusion 优化

基于隐空间的扩散模型 (Latent Diffusion Model ，是解决文本到图片生成问题上的颠覆者。Stable Diffusion 是最著名的一例，广泛应用在商业和工业。Stable Diffusion 的想法简单且有效: 从噪声向量开始，多次去...

生成式AI 2023-12-18 人工智能

939阅读

基于 NNCF 和 Optimum 面向 Intel CPU 对 Stable Diffusion 优化

? 宝子们可以戳阅读原文查看文中所有的外部链接哟！基于隐空间的扩散模型 (Latent Diffusion Model ，是解决文本到图片生成问题上的颠覆者。Stable Diffusion 是最著名的一例，广泛应用在商业和工...

人工智能 2023-12-17 人工智能

906阅读

Stable Diffusion学习笔记

灰常好的模型网站 https://civitai.com/ LiblibAI·哩布哩布AI-中国领先原创AI模型分享社区出图效率倍增！47个高质量的 Stable Diffusion 常用模型推荐 - 优设网 - 学设计上优设几种模型的介绍...

AIGC 2023-12-17 人工智能

1460阅读

在矩池云运行 Stable Diffusion web UI，使用v1.5模型和 ControlNet 插件

今天给大家介绍下如何在矩池云使用 Stable Diffusion web UI v1.5 模型和 Stable Diffusion ControlNet 插件。租用机器租用机器需要选择内存大于8G的机器，比如 A2000，不然 Stable D...

生成式AI 2023-12-16 人工智能

830阅读

What the DAAM: Interpreting Stable Diffusion Using Cross Attention

What the DAAM: Interpreting Stable Diffusion Using Cross Attention (Paper reading Raphael Tang, Comcast Applied AI, ACL2023 b...

大数据 2023-12-15 人工智能

1025阅读

数字图像处理的图像操作

图像操作在计算机视觉和图像处理中发挥着至关重要的作用。这些操作对于诸如预处理、增强图像质量和启用高级算法等任务至关重要。在计算机视觉中，诸如调整大小、裁剪、调整亮度/对比度/伽玛和几何变换等操作是基础的。它们允许进行高效的计算、提取感兴趣区域、规范化图像...

大数据 2023-12-14 人工智能

984阅读

stable-diffusion-webui 中 Controlnet 使用说明

文章目录 1. 安装自动安装手动安装 2. 启用 Controlnet 3. 配置 Controlnet 4. 预训练模型区别 5. 多 ControlNet 组合应用 6. 参数介绍 7. 版本对比 Reference...

AIGC 2023-12-12 人工智能

2006阅读

0微调搞定160个测试集！最强多模态分割一切大模型来了，架构参数全开源

用多模态大模型来做语义分割，效果有多好？一张图+文字输入想分割的物体，大模型几秒钟就能识别并搞定！只需输入想分割的对象如“擎天柱”，单个目标立刻就能被精准识别、快速切割：多个物体也是手到擒来，像是指定天空、水、树、草、女孩、龙猫（Chinchil...

大数据 2023-12-10 人工智能

856阅读

AI - AI绘画的精准控图(ControlNet)

一、介绍在上一篇《AI - stable-diffusion(AI 绘画的搭建与使用》中，介绍了 SD 的环境搭建与使用，搭配各种特色模型文件，SD 的文生图功能就可以根据我们输入的提示词（Prompt），绘制出各种各样的精美图片。但是，在深度...

人工智能 2023-12-08 人工智能

1297阅读

DMP技术开源，可提升AI图像预测精度

Diffusion Models as Prior （DMP）是一种新的方法，它在AI生成的图像中提高了语义预测的准确性。该创新性方法巧妙地将预先训练的文本到图像模型应用于各种任务，例如3D属性估计和语义分割，在有限的训练数据下表现优于现有技术。项目地...

生成式AI 2023-12-07 人工智能

830阅读

揭秘AI魔法绘画：Stable Diffusion引领无限创意新纪元

文章目录 1. 无限的创意空间 2. 高效的创作过程 3. 个性化的艺术表达 4. 跨界合作的可能性 5. 艺术教育的革新 6. 艺术市场的拓展《AI魔法绘画：用Stable Diffusion挑战无限可能》编辑推荐内容简介作者简...

大数据 2023-12-07 人工智能

876阅读

Stable Diffusion：开启AI魔法绘画的无限可能

? 个人网站:【海拥】【神级代码资源网站】【办公神器】 ? 基于Web端打造的：?轻量化工具创作平台 ? 想寻找共同学习交流的小伙伴，请点击【全栈技术交流群】随着人工智能技术的蓬勃发展，图像生成和艺术创作领域掀起了一股新的浪潮。在这股浪潮中，St...

生成式AI 2023-12-07 人工智能

918阅读

ControlNet多重控制功能推出，AI绘画进入导演时代！

目录一、“不会开发游戏的AI工具制作者不是好博士” 二、ControlNet出现的背景三、什么是ControlNet？四、「神采 Prome AI」的诞生五、总结去年DALLE2，Stable Diffusion等文-图底层大模型发...

人工智能 2023-12-07 人工智能

919阅读

【AIGC】【AI绘画】controlNet介绍（原理+使用）

文章目录安装教程 1.环境安装 2. 下载预训练的模型文件 3.运行（生成可视化界面） 1、ControlNet：AI绘画 1.1、ControlNet的本质是文生图(txt2img 2.2、预处理器 & 模型选择 1.3、参...

大数据 2023-11-30 人工智能

1741阅读

Stable Diffusion — ControlNet 超详细讲解

Stable Diffusion — ControlNet 超详细讲解 ControlNet 最近非常火?！ControlNet 和 Stable Diffusion 的结合使 Stable Diffusion 能够接受指导图像生成过程的条件输入，从而增...

AIGC 2023-11-24 人工智能

2289阅读

Stable Diffusion系列（二）：ControlNet基础控件介绍

文章目录线稿提取类 Canny：边缘检测 SoftEdge：软边缘检测 Lineart：精细线稿提取 Scribble/Sketch：涂鸦提取 MLSD：建筑领域的线条提取 3D提取类 Normal map：法线贴图 Depth：深度计...

AIGC 2023-11-23 人工智能

1042阅读

【OpenAI】DALL·E 2，让我来带你认识一下这位来自AI界的艺术家

个人主页：【?个人主页】文章目录前言什么是DALL-E 2 ？介绍的怎么厉害，它又能干啥呢？基本功能新功能编辑变体功能总结前言 DALL-E 2 是一种基于语言的人工智能图像生...

大数据 2023-11-21 人工智能

1010阅读

Stable Diffusion WebUI安装ControlNet插件

ControlNet是一种通过添加额外条件来控制扩散模型的神经网络结构。 sd-webui-controlnet下载地址： GitHub - Mikubill/sd-webui-controlnet: WebUI extension for Contr...

AIGC 2023-11-19 人工智能

1594阅读