解码器第4页 - AIGC资讯

超越ORB-SLAM3！SL-SLAM：低光、严重抖动和弱纹理场景全搞定

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面今天我们探讨下深度学习技术如何改善在复杂环境中基于视觉的SLAM（同时定位与地图构建）性能。通过将深度特征提取和深度匹配方法相结合，这里介绍了一种多功能的混合视觉SLAM系统，旨在提高在诸如低...

大数据 2024-05-13 人工智能

1646阅读

从零开始手搓GPU，照着英伟达CUDA来，只用两个星期

「我花两周时间零经验从头开始构建 GPU，这可比想象的要难多了。」总有人说老黄的芯片供不应求，大家恨不得去手搓 GPU，现在真的有人试了。近日，美国一家 web3 开发公司的创始工程师之一 Adam Majmudar 分享了他「手搓 GPU」成功...

AIGC 2024-05-13 人工智能

840阅读

DriveWorld：一个预训练模型大幅提升检测+地图+跟踪+运动预测+Occ多个任务性能

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面以视觉为中心的自动驾驶技术近期因其较低的成本而引起了广泛关注，而预训练对于提取通用表示至关重要。然而，当前的以视觉为中心的预训练通常依赖于2D或3D预训练任务，忽视了自动驾驶作为4D场景理解...

大数据 2024-05-10 人工智能

854阅读

综述170篇「自监督学习」推荐算法，港大发布SSL4Rec：代码、资料库全面开源！

推荐系统对于应对信息过载挑战至关重要，它们根据用户的个人偏好提供定制化推荐。近年来深度学习技术极大地推动了推荐系统的发展，提升了对用户行为和偏好的洞察力。然而，由于数据稀疏性的问题，传统的监督学习方法在实际应用中面临挑战，这限制了它们有效学习用户表示的...

大数据 2024-05-09 人工智能

800阅读

LeCun转发，AI让失语者重新说话！纽约大学发布全新「神经-语音」解码器

脑机接口（BCI）在科研和应用领域的进展在近期屡屡获得广泛的关注，大家通常都对脑机接口的应用前景有着广泛的畅享。比如，由于神经系统的缺陷造成的失语症不仅严重阻碍患者的日常生活，还可能限制他们的职业发展和社交活动。随着深度学习和脑机接口技术的迅猛发展，...

人工智能 2024-05-07 人工智能

865阅读

看透物体的3D表示和生成模型：NUS团队提出X-Ray

项目主页：https://tau-yihouxiang.github.io/projects/X-Ray/X-Ray.html 论文地址：https://arxiv.org/abs/2404.14329 代码地址：https://github.com...

AIGC 2024-05-06 人工智能

883阅读

还在YOLO-World？DetCLIPv3出手！性能大幅度超出一众SOTA！

本文经自动驾驶之心公众号授权转载，转载请联系出处。现有的开词汇目标检测器通常需要用户预设一组类别，这大大限制了它们的应用场景。在本文中，作者介绍了DetCLIPv3，这是一种高性能检测器，不仅在开词汇目标检测方面表现出色，同时还能为检测到的目标生成...

AIGC 2024-04-30 人工智能

980阅读

华人持续炸场！8倍于SOTA模型发布，超分辨率细节还原度逆天，终于可以看清楚蜘蛛网丝了！网友：质量真不错！电影时长9秒才够用！

撰稿 | 言征出品 | 51CTO技术栈（微信号：blog51cto） Sora带火了“视频一致性”的研究，但单纯在时间一致性已经不能满足业内对于高逼真视频的渴望。这不，华人又出来炸场了！近日，一个名为VideoGigaGAN的视频模型在业界走红。...

大数据 2024-04-25 人工智能

898阅读

一文了解大语言模型（LLM）

人工智能的发展给我们的生活带来很多不一样的体验。面部识别可以解锁设备，激光雷达可以实现自动驾驶。当2023年，OpenApi的chatGPT可以“理解”人类的语言并与我们进行沟通时，大语言模型的概念出现在我们面前。在自然语言处理领域的大语言模型（La...

AIGC 2024-04-23 人工智能

922阅读

如何利用Transformer有效关联激光雷达-毫米波雷达-视觉特征？

本文经自动驾驶之心公众号授权转载，转载请联系出处。笔者个人理解自动驾驶的基础任务之一是三维目标检测，而现在许多方法都是基于多传感器融合的方法实现的。那为什么要进行多传感器融合?无论是激光雷达和相机融合，又或者是毫米波雷达和相机融合，其最主要的目的就是...

大数据 2024-04-20 人工智能

949阅读

RAG 2.0架构详解：构建端到端检索增强生成系统

关于检索增强生成（RAG）的文章已经有很多了，如果我们能创建出可训练的检索器，或者说整个RAG可以像微调大型语言模型（LLM）那样定制化的话，那肯定能够获得更好的结果。但是当前RAG的问题在于各个子模块之间并没有完全协调，就像一个缝合怪一样，虽然能够工作...

人工智能 2024-04-20 人工智能

1050阅读

新加坡国立大学 | 通过语言分割任何3D目标

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解本文研究了具有自由形式语言指令的开放词汇3D实例分割（OV-3DIS）。先前的作品只依赖于注释的基本类别进行训练，对看不见的长尾类别的泛化能力有限。最近的工作通过生成类...

人工智能 2024-04-12 人工智能

936阅读

等等我还没上车！LLM赋能端到端全新范式LeGo-Drive，车速拉满

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者个人理解这篇论文介绍了一种名为LeGo-Drive的基于视觉语言模型的闭环端到端自动驾驶方法。该方法通过预测目标位置和可微分优化器规划轨迹，实现了从导航指令到目标位置的端到端闭...

人工智能 2024-04-12 人工智能

959阅读

【探索AI】人人都在讲AIGC，什么是AIGC？

AIGC 概述示例展示我们日常用到的一些工具/应用核心技术介绍核心技术的算法解析案例及部分代码实现 1. 艺术作品 2. 设计项目 3. 影视特效 4. 广告创意总结一张图先了解下：概述 "人工智能生成创造...

生成式AI 2024-04-11 人工智能

3533阅读

RAG 修炼手册｜一文讲透 RAG 背后的技术

在之前的文章中《RAG 修炼手册｜RAG敲响丧钟？大模型长上下文是否意味着向量检索不再重要》，我们已经介绍过 RAG 对于解决大模型幻觉问题的不可或缺性，也回顾了如何借助向量数据库提升 RAG 实战效果。今天我们继续剖析 RAG，将为大家大家详细介绍...

AIGC 2024-04-10 人工智能

914阅读

五种常用于LLM的令牌遮蔽技术介绍以及Pytorch的实现

本文将介绍大语言模型中使用的不同令牌遮蔽技术，并比较它们的优点，以及使用Pytorch实现以了解它们的底层工作原理。令牌掩码Token Masking是一种广泛应用于语言模型分类变体和生成模型训练的策略。BERT语言模型首先使用，并被用于许多变体(Ro...

AIGC 2024-04-09 人工智能

869阅读

【stable diffusion扩散模型】一篇文章讲透

目录一、引言二、Stable Diffusion的基本原理 1 扩散模型 2 Stable Diffusion模型架构 3 训练过程与算法细节三、Stable Diffusion的应用领域 1 图像生成与艺术创作 2 图像补全与修复...

AIGC 2024-04-08 人工智能

1047阅读

太全了！多模态深度学习的综述！

1.介绍我们对世界的体验是多模态的 —— 我们看到物体，听到声音，感觉到质地，闻到气味，尝到味道。模态是指某件事发生或经历的方式，当一个研究问题包含多个模态时，它就具有多模态的特征。为了让人工智能在理解我们周围的世界方面取得进展，它需要能够同时解释这些...

人工智能 2024-04-08 人工智能

1018阅读

AI语音识别工具Universal-1：38秒可以处理60分钟音频比fast Whisper更快

AssemblyAI 最新研究成果展示了他们的 Universal-1模型在多语言环境中的表现，该模型在准确性和鲁棒性方面均取得了行业领先地位。先说结果，Universal-1比Whisper Large-v3更准确，比fast Whisper更快，38秒...

生成式AI 2024-04-07 人工智能

1080阅读

什么是stable diffusion？

? Stable Diffusion：一种深度学习文本到图像生成模型 ? Stable Diffusion是2022年发布的深度学习文本到图像生成模型，主要用于根据文本的描述产生详细图像。它还可以应用于其他任务，如内补绘制、外补绘制，以及在提示词指导下产...

生成式AI 2024-04-06 人工智能

1381阅读

DALL·E 2（内含扩散模型介绍）【论文精读】Hierarchical Text-ConditionalImage Generation with CLIP Latents

1官方对模型的介绍大家好，今天我们就一起来看一下两个月之前 OpenAI 刚放出来的一篇力作。DALL·E 2是 OpenAI 一系列文本图像生成工作的最新一篇。去年 1 月份他们先推出了Dolly，然后在年底的时候又推出了glide。...

大数据 2024-04-05 人工智能

1267阅读

文生图大模型三部曲：DDPM、LDM、SD 详细讲解！

1、引言跨模态大模型是指能够在不同感官模态(如视觉、语言、音频等之间进行信息转换的大规模语言模型。当前图文跨模态大模型主要有：文生图大模型：如 Stable Diffusion系列、DALL-E系列、Imagen等图文匹配大模型：如CLI...

生成式AI 2024-04-05 人工智能

2548阅读

【小白】一文读懂AIGC模型之Stable Diffusion模型

目录模型简介模型结构 VAE变分编码器 VAE结构 VAE模型训练与损失函数 U-Net结构 CLIP Text Encoder 模型工作流程参考模型简介 Stable Diffusion（SD）模型是一种基于...

AIGC 2024-04-05 人工智能

1389阅读

AIGC学习笔记——DALL-E2详解+测试

它主要包括三个部分：CLIP，先验模块prior和img decoder。其中CLIP又包含text encoder和img encoder。（在看DALL·E2之前强烈建议先搞懂CLIP模型的训练和运作机制,之前发过CLIP博客）论文地址：https...

AIGC 2024-04-04 人工智能

1366阅读

Transformer引领AI百花齐放：从算法创新到产业应用，一文读懂人工智能的未来

一、引言近年来，人工智能技术取得了举世瞩目的成果，其中，自然语言处理（NLP）和计算机视觉等领域的研究尤为突出。在这些领域，一种名为Transformer的模型逐渐成为研究热点，以其为核心的创新成果层出不穷。本文将从Transformer的原理、应用和...

大数据 2024-04-03 人工智能

908阅读

全网最全Stable Diffusion原理说明！！简单明了容易理解！！！

手把手教你入门绘图超强的AI绘画程序Stable Diffusion，用户只需要输入一段图片的文字描述，即可生成精美的绘画。下面是Stable Diffusion注册和使用的方法。给大家带来了全新Stable Diffusion保姆级教程资料包（文末可获取...

大数据 2024-04-01 人工智能

1394阅读

Stable Diffusion之核心基础知识和网络结构解析

Stable Diffusion核心基础知识和网络结构解析一. Stable Diffusion核心基础知识 1.1 Stable Diffusion模型工作流程 1. 文生图(txt2img 2. 图生图 3. 图像优化模块 1.2...

生成式AI 2024-03-31 人工智能

1342阅读

DriveCoT：全面的开环端到端驾驶数据集和Benchmark

本文经自动驾驶之心公众号授权转载，转载请联系出处。近年来，端到端自动驾驶技术取得了显著进展，表现出系统简单性和在开环和闭环设置下竞争性驾驶性能的优势。然而，端到端驾驶系统在驾驶决策方面缺乏可解释性和可控性，这阻碍了其在真实世界中的部署。本文利用CAR...

生成式AI 2024-03-29 人工智能

1176阅读

DBRX抢占开源大模型王座编程、数学等领域超越GPT-3.5

最新开源大语言模型DBRX以其惊人的1320亿参数量成为业界新宠。该模型不仅在语言理解、编程和数学等方面超越了业内领先的开源模型，还在效率上有所突破。DBRX的基础和微调版本均已发布，为研究和商业应用提供了丰富的资源。 GitHub 链接：https:/...

生成式AI 2024-03-28 人工智能

907阅读

TOXCL：用于检测和解释隐性有毒言论的统一AI框架

社交媒体上的毒性言论可能会像野火般蔓延，特别是针对个人和边缘化群体。明显的仇恨言论相对容易被发现，但隐含毒性——依赖于刻板印象和编码语言而不是明显的侮辱——提出了更为棘手的挑战。如何训练人工智能系统不仅能够检测到这种隐晦的毒性，还能解释为何它是有害的呢?...

生成式AI 2024-03-28 人工智能

1024阅读

Video-LLaMa:利用多模态增强对视频内容理解

在数字时代，视频已经成为一种主要的内容形式。但是理解和解释视频内容是一项复杂的任务，不仅需要视觉和听觉信号的整合，还需要处理上下文的时间序列的能力。本文将重点介绍称为video - llama的多模态框架。Video-LLaMA旨在使LLM能够理解视频中的...

AIGC 2024-03-27 人工智能

878阅读

Stability AI开源3B代码生成模型：可补全，还能Debug

本周一，Stability AI 开源了小体量预训练模型 Stable Code Instruct 3B。 Stable Code Instruct 3B 是一个基于 Stable Code 3B 的指令调整编码语言模型（Code LM）。给出自然语言...

AIGC 2024-03-27 人工智能

879阅读

SDXS官网体验入口 AI快速生成高质量图像模型怎么使用

SDXS是一种新的扩散模型，通过模型微型化和减少采样步骤，大幅降低了模型延迟。它利用知识蒸馏来简化U-Net和图像解码器架构，并引入了一种创新的单步DM训练技术，使用特征匹配和分数蒸馆。SDXS-512 和 SDXS-1024 模型可在单个 GPU 上分别...

AIGC 2024-03-27 人工智能

829阅读

SORA 2.1 ——Stable diffusion技术解析+基于diffusion的视频生成技术介绍

本文是DataWhale开源项目Sora原理与技术实战的第二次打卡任务的第一节，主要是简单试用Stable diffusion技术在魔塔社区进行文生图实践。同一打卡任务的其他小节请参见个人主页。目录一.【AIGC简介——以文生图为例】 1.基于生...

AIGC 2024-03-27 人工智能

839阅读

AIGC实战——Transformer模型

AIGC实战——Transformer模型 0. 前言 1. T5 2. GPT-3 和 GPT-4 3. ChatGPT 小结系列链接 0. 前言我们在 GPT (Generative Pre-trained Transfo...

AIGC 2024-03-26 人工智能

973阅读

3140参数Grok-1推理加速3.8倍，PyTorch+HuggingFace版来了

马斯克说到做到开源Grok-1，开源社区一片狂喜。但基于Grok-1做改动or商用，都还有点难题： Grok-1使用Rust+JAX构建，对于习惯Python+PyTorch+HuggingFace等主流软件生态的用户上手门槛高。 △图注：Grok登...

AIGC 2024-03-25 人工智能

861阅读

【八股】2024春招八股复习笔记1（搜索推荐、AIGC）

【八股】2024春招八股复习笔记1（搜索推荐、AIGC）文章目录 1、推荐系统 1.1 推荐系统流程 1.2 协同过滤、矩阵分解 1.3 逻辑回归 2、算法常识（应用算法） 2.1 重点复习 xgboost 2.2 大模型 t...

大数据 2024-03-23 人工智能

3285阅读

UniPAD：一种通用的自动驾驶预训练模式

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解 UniPAD研究了一个关键问题：如何有效地利用大量未标记的3D点云数据进行自监督学习，以增强其在3D目标检测和语义分割等下游任务中的应用效率。这个问题之所以重要，是...

AIGC 2024-03-22 人工智能

965阅读

Nature重磅：AI击败最先进全球洪水预警系统，提前7天预测河流洪水，每年挽救数千人生命

洪水是最常见的自然灾害类型，全球有近 15 亿人（约占世界人口的 19%）直接面临严重洪水事件的巨大风险。洪水还造成巨大的物质损失，每年造成全球经济损失约 500 亿美元。近年来，人类造成的气候变化进一步增加了一些地区的洪水频率。然而，目前的预报方法主...

生成式AI 2024-03-22 人工智能

854阅读

微软NaturalSpeech语音合成推出第三代，网友惊呼：超自然！实至名归

文本到语音合成（Text to Speech，TTS）作为生成式人工智能（Generative AI 或 AIGC）的重要课题，在近年来取得了飞速发展。在大模型（LLM）时代下，语音合成技术能够扩展大模型的语音交互能力，更是受到了广泛的关注。多年来，微...

AIGC 2024-03-22 人工智能

768阅读

深度估计SOTA！自动驾驶单目与环视深度的自适应融合

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&个人理解多视图深度估计在各种基准测试中都取得了较高性能。然而，目前几乎所有的多视图系统都依赖于给定的理想相机姿态，而这在许多现实世界的场景中是不可用的，例如自动驾驶。本工作提出了一...

大数据 2024-03-22 人工智能

1162阅读

CMU朱俊彦、Adobe新作：512x512图像推理，A100只用0.11秒

简笔素描一键变身多风格画作，还能添加额外的描述，这在 CMU、Adobe 联合推出的一项研究中实现了。作者之一为 CMU 助理教授朱俊彦，其团队在 ICCV 2021 会议上发表过一项类似的研究：仅仅使用一个或数个手绘草图，即可以自定义一个现成的 GA...

生成式AI 2024-03-21 人工智能

847阅读

chatGPT的耳朵！OpenAI的开源语音识别AI：Whisper ！

语音识别是通用人工智能的重要一环！可以说是AI的耳朵！它可以让机器理解人类的语音，并将其转换为文本或其他形式的输出。语音识别的应用场景非常广泛，比如智能助理、语音搜索、语音翻译、语音输入等等。然而，语音识别也面临着很多挑战，比如不同的语言、口音...

人工智能 2024-03-21 人工智能

1048阅读

【AI绘画】2024最新Stable Diffusion 超详细讲解！！必收藏！！！！

手把手教你入门绘图超强的AI绘画，用户只需要输入一段图片的文字描述，即可生成精美的绘画。给大家带来了全新保姆级教程资料包（文末可获取） Stable Diffusion 超详细讲解这篇文章是《Stable Diffusion原理详解》的后续，在...

人工智能 2024-03-20 人工智能

1358阅读

小红书多模态团队建立新「扩散模型」：解码脑电波，高清还原人眼所见

近些年，研究人员们对探索大脑如何解读视觉信息，并试图还原出原始图像一直孜孜不倦。去年一篇被 CVPR 录用的论文，通过扩散模型重建视觉影像，给出了非常炸裂的效果—— AI 不光通过脑电波知道你看到了什么，并且帮你画了出来。第一行：人眼所见画面，第二...

人工智能 2024-03-19 人工智能

1301阅读

全球首个基于大语言模型的自动驾驶语言控制模型

Arxiv论文链接：https://arxiv.org/abs/2312.03543项目主页：https://github.com/Petrichor625/Talk2car_CAVG 近年来，工业界和学术界都争先恐后地研发全自动驾驶汽车（AVs）。尽...

人工智能 2024-03-19 人工智能

1050阅读

优于所有方法！HIMap：端到端矢量化HD地图构建

本文经自动驾驶之心公众号授权转载，转载请联系出处。矢量化高清（HD）地图构建需要预测地图元素的类别和点坐标（例如道路边界、车道分隔带、人行横道等）。现有技术的方法主要基于点级表示学习，用于回归精确的点坐标。然而，这种pipeline在获得elemen...

AIGC 2024-03-19 人工智能

885阅读

DECO: 纯卷积Query-Based检测器超越DETR！

本文经自动驾驶之心公众号授权转载，转载请联系出处。标题：DECO: Query-Based End-to-End Object Detection with ConvNets 论文：https://arxiv.org/pdf/2312.13735...

生成式AI 2024-03-19 人工智能

884阅读

什么情况用Bert模型，什么情况用LLaMA、ChatGLM类大模型，咋选？

选择使用哪种大模型，如Bert、LLaMA或ChatGLM，取决于具体的应用场景和需求。下面是一些指导原则： Bert模型：Bert是一种预训练的语言模型，适用于各种自然语言处理任务，如文本分类、命名实体识别、语义相似度计算等。如果你的任务是通用的文...

人工智能 2024-03-18 人工智能

1097阅读

超详细！AIGC面试系列大模型基础(1)

关于我从2022年末开始接触AIGC，便一直紧跟最近技术与实践落地。期间参与copilot项目研发，落地了多个垂类AIGC大模型应用，熟悉各种AIGC相关技术如Agent，Langchain，chatdoc，向量数据库等。关于本系列请你认真看完...

生成式AI 2024-03-18 人工智能

3062阅读