-
江大白 | 视觉Transformer与Mamba的创新改进,完美融合(附论文及源码)
本文来源公众号“江大白”,仅用于学术分享,侵权删,干货满满。 原文链接:视觉Transformer与Mamba的创新改进,完美融合(附论文及源码) 以下文章来源于微信公众号:AI视界引擎 作者:AI引擎 链接:https://mp.weixin.q...
-
谷歌发布大模型数据筛选方法:效率提升13倍,算力降低10倍
随着GPT-4o、Gemini等多模态大模型的出现,对训练数据的需求呈指数级上升。无论是自然语言文本理解、计算机视觉还是语音识别,使用精心标注的数据集能带来显著的性能提升,同时大幅减少所需的训练数据量。 但目前多数模型的数据处理流程严重依赖于人工筛选,不仅...
-
AIGC核心剖析:NLP与生成模型的协同作用
目录 AIGC核心剖析:NLP与生成模型的协同作用 NLP的基础与挑战 生成模型的强大能力 NLP与生成模型的协同作用 1. 机器翻译 2. 文本摘要 3. 对话系统 结论 AIGC核心剖析:NLP与生成模型的协同作用 在人工智能...
-
Stable Diffusion 深入浅出,一看就会
Stable Diffusion 是一个基于深度学习的图像生成模型,旨在生成高质量的图像。下面是一个 Stable Diffusion 入门案例教程,旨在帮助您快速入门 Stable Diffusion。 安装 Stable Diffusion 首先,...
-
AIGC助力ResNet分类任务:跃升10个百分点
目录 AIGC🎨缓解数据稀缺问题❓ 论文研究的动机✏️ 作者是怎么做的❓ 实验配置🧰 实验结果🔍 结论✅ 实践💐 要增强的裂缝图片 按照论文中的参数在stable-diffusionv1-5上进行textual inversion微调...
-
【八股文】算法岗位八股文、深度学习、AIGC八股文面试经验(一)
1. 请解释一下Batch Normalization的原理及其在训练深度神经网络中的作用。 Batch Normalization(批归一化)是一种在训练深度神经网络时常用的技术,旨在提高训练速度、稳定性和性能。 2. 在图像预处理过程中,如何选择合适...
-
Classifier-Free Guidance (CFG) Scale in Stable Diffusion
1.Classifier-Free Guidance Scale in Stable Diffusion 笔记来源: 1.How does Stable Diffusion work? 2.Classifier-Free Diffusion Guida...
-
AIGC涉及到的算法(一)
目录 1. 生成对抗网络(GAN 2. 变分自编码器(VAE 3. 扩散模型(Diffusion Model 4. Transformer 模型 5. 自然语言处理算法(NLP 6. 计算机视觉算法(CV 7. 神经网络算法...
-
AI日报:新王诞生!Runway重磅发布Gen-3 Alpha;Luma AI发布Extend功能;DeepSeek又开源了一个模型;ElevenLabs可为视频自动配音
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。 新鲜AI产品点击了解:https://top.aibase.com/ 1、AI视频王者回归!Runway...
-
变分自编码器(VAE)在AIGC中的应用及其技术解析
本文收录于专栏:精通AI实战千例专栏合集 https://blog.csdn.net/weixin_52908342/category_11863492.html 从基础到实践,深入学习。无论你是初学者还是经验丰富的老手,对于本专栏案例和项目实践...
-
论文笔记:Pixel-Aware Stable Diffusion for Realistic Image Super-Resolution and Personalized Stylization
CVPR2024 论文代码:yangxy/PASD (github.com 论文地址:[2308.14469v3] Pixel-Aware Stable Diffusion for Realistic Image Super-resolution a...
-
Stable Diffusion原理
一、Diffusion扩散理论 1.1、 Diffusion Model(扩散模型) Diffusion扩散模型分为两个阶段:前向过程 + 反向过程 前向过程:不断往输入图片中添加高斯噪声来破坏图像 反向过程:使用一系列马尔可夫链逐步将噪声还原...
-
探秘Piwigo爬虫:图像资源的自动抓取与整理
在当前的数字化时代,图像已经成为信息传递的重要载体,无论是个人用户还是商业机构,都拥有海量的图片资源需要管理。随着技术的发展,如何高效、自动地抓取和整理这些图像资源成为了迫切需求。在这一背景下,Piwigo爬虫技术应运而生,本文将深入探讨Piwigo爬虫的...
-
又被 OpenAI 截胡,Google推出开源视觉语言模型:PaliGemma
前言 该模型结合了 SigLIP 视觉模型和 Gemma 语言模型,这两种模型都是开放组件,使得PaliGemma在处理视觉与语言结合的任务上表现出色。 PaliGemma的使用场景包括图像字幕、图像标签和视觉问答等。这些应用场景利用了PaliGemm...
-
力压Transformer?首篇Mamba综述来了!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 Mamba是一种新的选择性结构状态空间模型,在长序列建模任务中表现出色。Mamba通过全局感受野和动态加权,缓解了卷积神经网络的建模约束,并提供了类似于Transfo...
-
OpenAI Preparedness团队首席Aleksander Madry:机器学习模型的内部计算如何将输入转化为预测?
考虑一个标准的ResNet50模型,该模型经过训练用于图像分类任务。我们是否能够理解这个模型中的卷积滤波器如何将输入图像转换为其预测的标签?或者,GPT-3中的注意力头如何contribute到下一个标记的预测?理解这些模型组件——包括滤波器或头等架构...
-
AI辅助式数据分类分级
引言 在信息爆炸的时代,数据已经成为企业最宝贵的资产之一。然而,大量的数据如果不能被有效地分类和分级,就会变得无序混乱,数据安全无法得到有效保障,也无法发挥其真正的数据价值。因此,数据分类分级无论是对于数据安全还是对于数据价值都变得至关重要。本文将探讨...
-
Transformer引领AI百花齐放:从算法创新到产业应用,一文读懂人工智能的未来
一、引言 近年来,人工智能技术取得了举世瞩目的成果,其中,自然语言处理(NLP)和计算机视觉等领域的研究尤为突出。在这些领域,一种名为Transformer的模型逐渐成为研究热点,以其为核心的创新成果层出不穷。本文将从Transformer的原理、应用和...
-
人工智能是否被高估了?
毫无疑问,人工智能已经成为近年来最热门的话题之一,吸引着技术专家、企业家和公众的想象力。然而,在围绕人工智能的炒作和兴奋中,关于人工智能是否被高估的争论越来越多。一些批评人士认为,人工智能只是一种先进的曲线拟合,而不是所描绘的革命性技术。 人工智能的核...
-
上海交大新框架解锁CLIP长文本能力,多模态生成细节拿捏,图像检索能力显著提升
CLIP长文本能力被解锁,图像检索任务表现显著提升! 一些关键细节也能被捕捉到。上海交大联合上海AI实验室提出新框架Long-CLIP。 △棕色文本为区分两张图的关键细节 Long-CLIP在保持CLIP原始特征空间的基础上,在图像生成等下游任务中即插...
-
全面综述!大模型到底微调个啥?或者说技术含量到底有多大?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 大型模型代表了多个应用领域的突破性进展,能够在各种任务中取得显著成就。然而,它们前所未有的规模带来了巨大的计算成本。这些模型通常由数十亿个参数组成,需要大量的计算资源才...
-
Stable Diffusion——文生图界面参数讲解与提示词使用技巧
Clip终止层数 什么是Clip CLIP(Contrastive Language-Image Pretraining)是由OpenAI于2021年开发的一种语言图像对比预训练模型。其独特之处在于,CLIP模型中的图像和文本嵌入共享相同的潜在...
-
“羊驼“入侵CV,美团&浙大沈春华团队将LLaMA向CV扩展,构建全新基础模型VisionLLaMA
本文首发:AIWalker https://arxiv.org/abs/2403.00522 https://github.com/Meituan-AutoML/VisionLLaMA 本文概述 大型语言模型构建在基于Transf...
-
VPR 2024 满分论文!Meta提出EfficientSAM:快速分割一切!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 EfficientSAM 这篇工作以5/5/5满分收录于CVPR 2024!作者在某社交媒体上分享了该结果,如下图所示: LeCun 图灵奖得主也强烈推荐了该工作! 在最近的一项研究中,Meta...
-
如何使用TensorFlow和Cleanvision检测大堡礁的海星威胁?
澳大利亚的大堡礁美不胜收,是全球最大的珊瑚礁,也是多种多样的海洋生物栖息的家园。不幸的是,珊瑚礁面临蚕食珊瑚的棘冠海星(COTS)的威胁。为了控制COTS爆发,珊瑚礁管理人员使用一种名为Manta Tow勘查的方法,将潜水员拖在船后,目测评估珊瑚礁的各...
-
什么是预训练Pre-training—— AIGC必备知识点,您get了吗?
Look!👀我们的大模型商业化落地产品 📖更多AI资讯请👉🏾关注 Free三天集训营助教在线为您火热答疑👩🏼🏫 随着人工智能(AI 不断重塑我们的世界,其发展的一个关键方面已经成为现代机器学习模型的支柱:预训练。在本篇文章中,我们将探讨预训练的概...
-
如何使用AIGC进行图像生成和编辑
1.背景介绍 图像生成和编辑是计算机视觉领域的重要应用,随着人工智能技术的发展,AIGC(Artificial Intelligence Generative Convolutional 已经成为了图像生成和编辑的主流方法。在本文中,我们将详细介...
-
分享AIGC场景应用及泰迪AIGC大模型师资培训内容
什么是AIGC? AIGC是内容生产方式的进阶,实现内容和资产的再创造。AIGC(AI-Generated Content)本质上是一种内容生产方式,即人工智能自动生产内容,是基于深度学习技术,输入数据后由人工智能通过寻找规律并适当泛化从而生成内...
-
【多模态】13、Vision-Language 模型在视觉任务中的调研
文章目录 一、简介 二、基础知识 2.1 视觉任务的训练策略 2.2 VLM 基础 2.2.1 网络结构 2.2.2 预训练目标函数 2.2.3 评估和下游任务 2.3 数据集 三、迁移学习 3.1 使用 prompt tunin...
-
大家都在用的AI作画Python几行代码就可实现
一、通过openai实现的作品: 要想快速实现功能,咱们先了解一下OpenAI,OpenAI是一家人工智能公司,专注于开发强化学习、机器学习、自然语言处理等技术。OpenAI的主要目标是创造一套安全的人工智能系统,以帮助人们在各行各业中利用这项技术.接...
-
检测路在何方?YOLOv8终极指南
本文经自动驾驶之心公众号授权转载,转载请联系出处。 YOLOv8是计算机视觉领域的最新发展,它是一种用于目标检测、实例分割和分类的最新先进模型。除了对模型架构本身的改进之外,YOLOv8通过一个用于使用YOLO模型的PIP包为开发者提供了一个新的友好界...
-
Apple:使用语言模型的自回归方式进行图像模型预训练
1、背景 在GPT等大模型出现后,语言模型这种Transformer+自回归建模的方式,也就是预测next token的预训练任务,取得了非常大的成功。那么,这种自回归建模方式能不能在视觉模型上取得比较好的效果呢?今天介绍的这篇文章,就是Apple近期发...
-
人工智能数学基础 - 线性代数之矩阵篇
本文将从矩阵的本质、矩阵的原理、矩阵的应用三个方面,带您一文搞懂人工智能数学基础-线性代数之矩阵。 一、矩阵的本质 点积(Dot Product):点积作为向量间的一种基本运算,通过对应元素相乘后求和来刻画两向量的相似度和方向关系。 点积(Dot Pr...
-
[论文精读] 自条件图像生成 - 【恺明大神新作,AIGC 新基准】
论文导读: 论文背景: 2023年8月,AI大神何恺明在个人网站宣布,2024年将加入MIT担任教职,回归学术界。这篇论文是其官宣加盟MIT后首度与MIT师生合著的公开论文,论文一作本科毕业于清华姚班,二作为MIT电气工程与计算机科学系教授,今年的斯...
-
纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了
人类有两只眼睛来估计视觉环境的深度信息,但机器人和 VR 头社等设备却往往没有这样的「配置」,往往只能靠单个摄像头或单张图像来估计深度。这个任务也被称为单目深度估计(MDE)。 近日,一种可有效利用大规模无标注图像的新 MDE 模型 Depth Any...
-
GPT-4V惨败!CV大神谢赛宁新作:V*重磅「视觉搜索」算法让LLM理解力逼近人类
Sam Altman最近在世界经济论坛上发言,称达到人类级别的AI很快就会降临。 但是,正如LeCun一直以来所言,如今的AI连猫狗都不如。现在看来的确如此。 GPT-4V、LLaVA等多模态模型图像理解力足以让人惊叹。但是,它们并非真的能够做的面面俱到。...
-
【AI接口】语音版、文心一言大模型和AI绘图、图片检测API
文章目录 一、语音版大模型AI 1、接口 2、请求参数 3、请求参数示例 4、接口返回示例 二、AI图片鉴黄合规检测API 1、接口 2、请求参数 3、请求参数示例 4、接口返回示例 5、报错说明 6、代码开源 三、人工智能AI绘画AP...
-
视觉Mamba来了:速度提升2.8倍,内存能省87%
号称「全面包围 Transformer」的 Mamba,推出不到两个月就有了高性能的视觉版。 本周四,来自华中科技大学、地平线、智源人工智能研究院等机构的研究者提出了 Vision Mamba(Vim)。 论文地址:https://arxiv.or...
-
AIGC必备知识点:你不可不知的CNN(卷积神经网络)-知识全解析!
Look!👀我们的大模型商业化落地产品 📖更多AI资讯请👉🏾关注 Free三天集训营助教在线为您火热答疑👩🏼🏫 大家在谈论的卷积神经网络究竟是什么?(Convolutional Neural Network,CNN 是一类主要用于计算机视觉领域的...
-
ConvNet与Transformer谁更强?Meta评测4个领先视觉模型,LeCun转赞
如何根据特定需求选择视觉模型? ConvNet/ViT、supervised/CLIP模型,在ImageNet之外的指标上如何相互比较? 来自MABZUAI和Meta的研究人员发表的最新研究,在「非标准」指标上全面比较了常见的视觉模型。 论文地址:ht...
-
实战AI大模型:AIGC及经典模型
今天,人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣,它不仅成为技术发展的核心驱动力,更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习,通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型(简称AI大模型)以其强大的...
-
谷歌DeepMind最新研究:对抗性攻击对人类也有效,人类和AI都会把花瓶认成猫!
【新智元导读】神经网络由于自身的特点而容易受到对抗性攻击,然而,谷歌DeepMind的最新研究表明,我们人类的判断也会受到这种对抗性扰动的影响 人类的神经网络(大脑)和人工神经网络(ANN 的关系是什么? 有位老师曾经这样比喻:就像是老鼠和米老鼠的关系。...
-
突破Pytorch核心点,CNN !!!
哈喽,我是小壮! 创建卷积神经网络(CNN),很多初学者不太熟悉,今儿咱们来大概说说,给一个完整的案例进行说明。 CNN 用于图像分类、目标检测、图像生成等任务。它的关键思想是通过卷积层和池化层来自动提取图像的特征,并通过全连接层进行分类。 原理 1.卷...
-
Hyena成下一代Transformer?StripedHyena-7B开源:最高128k输入,训练速度提升50%
最近几年发布的AI模型,如语言、视觉、音频、生物等各种领域的大模型都离不开Transformer架构,但其核心模块「注意力机制」的计算复杂度与「输入序列长度」呈二次方增长趋势,这一特性严重限制了Transformer在长序列下的应用,例如无法一次性处理一...
-
大模型被偷家!CNN搞多模态不弱于Transfromer(腾讯&港中文)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 腾讯AI实验室与港中文联合团队提出了一种新的CNN架构,图像识别精度和速度都超过了Transformer架构模型。 切换到点云、音频、视频等其他模态,也无需改变模型结构,简单预处理即可接近甚至超越SO...
-
秒懂AI-深度学习四种常用激活函数:Sigmoid、Tanh、ReLU和Softmax
深度学习中的激活函数是神经网络中至关重要的组成部分,它们为神经网络引入非线性特性,使其能够更好地学习和模拟复杂的输入输出关系。激活函数的选择和使用对于神经网络的性能和训练效果具有重要影响。 本文将介绍四种常用的激活函数:Sigmoid、Tanh、ReLU...
-
大模型被偷家!腾讯港中文新研究修正认知:CNN搞多模态不弱于Transfromer
在Transformer占据多模态工具半壁江山的时代,大核CNN又“杀了回来”,成为了一匹新的黑马。 腾讯AI实验室与港中文联合团队提出了一种新的CNN架构,图像识别精度和速度都超过了Transformer架构模型。 切换到点云、音频、视频等其他模态,也无...
-
Google AI Studio官网体验入口 AI应用部署开发软件app免费下载地址
Google AI Studio是一个基于Vertex AI在Google Cloud上构建和部署AI应用程序的平台。它提供了一个无代码界面,使开发人员、数据科学家和业务分析师能够快速构建、部署和管理AI模型。想要体验Google AI Studio吗?下...
-
随意指定CLIP关注区域!上交复旦等发布Alpha-CLIP:同时保持全图+局部检测能力
CLIP是目前最流行的视觉基座模型,其应用场景包括但不限于: 与LLM大语言模型结合成为视觉多模态大模型; 作为图像生成(Stable Diffusion 、点云生成(Point-E 的condition model,实现image-to-3D; 用于...
-
神经网络是如何工作的? | 京东云技术团队
作为一名程序员,我们习惯于去了解所使用工具、中间件的底层原理,本文则旨在帮助大家了解AI模型的底层机制,让大家在学习或应用各种大模型时更加得心应手,更加适合没有AI基础的小伙伴们。 一、GPT与神经网络的关系 GPT想必大家已经耳熟能详,当我们与它...