-
Whisper-AT:抗噪语音识别模型(Whisper)实现通用音频事件标记(Audio Tagger)
本文介绍一个统一音频标记(Audio Tagger)和语音识别(ASR)的模型:Whisper-AT,通过冻结Whisper的主干,并在其之上训练一个轻量级的音频标记模型。Whisper-AT在额外计算成本不到1%的情况下,可以在单次前向传递...
-
AI教父Hinton:我支持超级AI取代人类!
【新智元导读】「AI教父」Geoffrey Hinton在最近的采访中表达了自己对AI智能的理解——LLM并不是简单的统计模型,已经具备了理解能力。与此同时,网友翻出了去年12月的「过期」视频,惊奇地发现Hinton早就「叛变」了,竟然对超级AI取代人类的...
-
stable diffusion基本原理
stable diffusion基本原理 ChatGPT Stable Diffusion是一种用于图像生成和编辑的深度学习模型,其基本原理基于扩散模型(diffusion models)。扩散模型是一种生成模型,通过模拟数据从噪声到目标分布的过程...
-
AI绘画及Midjourney
主要围绕AI绘画的发展历程和应用,以及近期的一些热点新闻和趋势。AI绘画技术的发展成本很高,但其应用前景广阔,已经成为艺术创作的一个重要工具,所以值得关注. 2012年华裔人工智能科学家吴恩达跟美国计算机科学家杰夫 迪恩。两位都...
-
关于AI绘画Stable diffusion的各种模型,看这篇就可以了!
大家好,我是程序员晓晓 今天主要是帮大家梳理下Stable diffusion里面的各种模型,模型在Stable diffusion中占据着至关重要的地位,不仅决定了出图的风格,也决定了出图质量的好坏。 但在第一次接触SD的时候,我就被里面的模型搞到头...
-
探秘艺术之源:DALL-E3与Midjourney 绘画软件深度对照分析
随着人工智能技术的飞速发展,AI绘画软件已经成为了艺术创作的一大助力。在这场融合了技术与艺术的革新浪潮中,DALL-E3和Midjourney无疑是最受瞩目的两位选手。它们不仅改变了艺术家的创作方式,还为平凡人打开了一扇通往艺术殿堂的大门。本文将深入剖析这...
-
区分stable diffusion中的通道数与张量维度
区分stable diffusion中的通道数与张量形状 1.通道数: 1.1 channel = 3 1.2 channel = 4 2.张量形状 2.1 3D 张量 2.2 4D 张量 2.2.1 通常 2.2.2 stable d...
-
大规模语言模型从理论到实践 LLaMA的模型结构
1.背景介绍 随着人工智能技术的不断发展,大规模语言模型(Large Language Models, LLMs)已经成为自然语言处理领域的热点。这些模型通过在大规模数据集上进行训练,能够生成连贯、相关且有趣的文本输出。LLaMA 是 Meta AI 开...
-
用ControlNet+Inpaint实现stable diffusion模特换衣
用ControlNet+Inpaint实现stable diffusion模特换衣 ControlNet 训练与架构详解 ControlNet 的架构 用于文本到图像扩散的 ControlNet 训练过程...
-
详细解析AI作画原理及相关理论
先来欣赏AI作画 人物方面: 欣赏AI作画自然意境: 目录 引言 一、AI作画原理 二、相关理论 1. 风格迁移理论 2. 生成对抗网络(GAN) 三、代码示例 进一步的优化和改进可能包括: 总结: 引言...
-
天才程序员周弈帆 | Stable Diffusion 解读(一):回顾早期工作
本文来源公众号“天才程序员周弈帆”,仅用于学术分享,侵权删,干货满满。 原文链接:Stable Diffusion 解读(一):回顾早期工作 在2022年的这波AI绘画浪潮中,Stable Diffusion无疑是最受欢迎的图像生成模型。究其原因,第一...
-
Stable Diffusion原理
一、Diffusion扩散理论 1.1、 Diffusion Model(扩散模型) Diffusion扩散模型分为两个阶段:前向过程 + 反向过程 前向过程:不断往输入图片中添加高斯噪声来破坏图像 反向过程:使用一系列马尔可夫链逐步将噪声还原...
-
探索艺术新边界:Stable Diffusion 在艺术领域的创新应用
一、引言 在当今数字化时代,人工智能技术的飞速发展正在改变着各个领域,艺术领域也不例外。Stable Diffusion 作为一种强大的人工智能绘画工具,为艺术家们提供了全新的创作可能性。本文将探讨 Stable Diffusion 在艺术领域的应用,以...
-
LLama的激活函数SwiGLU 解释
目录 Swish激活函数 1. Swish函数公式 LLaMA模型中的激活函数 1. SwiGLU激活函数 2. SwiGLU激活函数的表达式 3. SwiGLU激活函数的优势 Swish激活函数 Swish是一种激活函数,其计算...
-
大模型算法(一):从Transformer到ViT再到LLaMA
单任务/单领域模型 深度学习最早的研究集中在针对单个领域或者单个任务设计相应的模型。 对于CV计算机视觉领域,最常用的模型是CNN卷积模型。其中针对计算机视觉中的不同具体任务例如分类任务,目标检测任务,图像分割任务,以CNN作为骨干backbone,加...
-
热门推荐:五款广受欢迎的AI绘画软件
1、A1.art A1-一张照片,30s生成美图 A1.art 是一款全新的AI绘画工具,内置上千个趣味性生图应用。上手非常简单,就算你从来没有接触过 AI 绘画,也完全不用担心,A1.art 的 Fork 功能让你可以在优质模型的基础上,尽情发挥你...
-
Stable diffusion文生图大模型——隐扩散模型原理解析
1、前言 本篇文章,我们将讲这些年非常流行的文生图大模型——Stable Diffusion。该模型也不难,甚至说很简单。创新点也相对较少,如果你学会了我以前的文章讲过的模型,学习这个也自然水到渠成! 参考论文:High-Resolution Ima...
-
存内计算与扩散模型:下一代视觉AIGC能力提升的关键
目录 前言 视觉AIGC的ChatGPT4.0时代 扩散模型的算力“饥渴症” 存内计算解救算力“饥渴症” 结语 前言 在这个AI技术日新月异的时代,我们正见证着前所未有的创新与变革。尤其是在视觉内容生成领域...
-
每日AIGC最新进展(5):卷积神经网络在空间频率域中的对抗性鲁棒性、预训练多模态模型的情感认知合理性、3D Gaussian Splatting在实际应用中的高效渲染
Diffusion Models专栏文章汇总:入门与实战 Evaluating Adversarial Robustness in the Spatial Frequency Domain http://arxiv.org/abs/2405.063...
-
Stable Diffusion详细教程
目录 ?引言 ?Stable Diffusion基本概念 ?潜在扩散模型 ?图像生成原理 ?Stable Diffusion安装部署 ?环境要求 ?安装步骤 ?Stable Diffusion阶段 ?准备阶段 ?训练阶段 ?评估阶...
-
LLaMa系列模型详解(原理介绍、代码解读):LLaMa
LLaMA详解 LLaMA(Large Language Model Meta AI)是由Meta(前身为Facebook)开发的一种大规模语言模型,旨在提高自然语言处理(NLP)任务的性能。LLaMA基于变换器(Transformer)架构,并经过大...
-
OpenAI自研芯片进展曝光!百万年薪挖角谷歌
快科技6月9日消息,OpenAI的自研芯片计划近日取得显著进展,该公司正积极从谷歌TPU团队招募顶尖人才,以扩展其芯片研发团队。 这一策略显示出OpenAI减少对英伟达芯片依赖的决心,并有望在未来建造更多晶圆厂,为AI芯片需求提供稳定供给。 据SemiAn...
-
ai绘画免费图生图!这4款画图ai软件好用到爆!
日常想用一张精美的图片来装点工作项目,多数时候会遇到这么一种情况,想下载的图片需要付费,且图库的价格又高到飞起,辛辛苦苦找到的图片最终没法使用,很让人受伤。 但还好我们现在已步入 AI 时代,有了 ai 绘画免费图生图工具的加持,这些问题将不...
-
神经网络应用与实战案例详解(AIGC技术方向)
本文收录于专栏:精通AI实战千例专栏合集 https://blog.csdn.net/weixin_52908342/category_11863492.html 从基础到实践,深入学习。无论你是初学者还是经验丰富的老手,对于本专栏案例和项目实践都有参...
-
【AIGC半月报】AIGC大模型启元:2024.05(上)
AIGC大模型启元:2024.05(上) (1 Video Mamba Suite(Mamba视频领域应用) (2 KAN(全新神经网络架构) (3 Meshy 3(文本生成3D模型) (4 MemGPT(LLM记忆管理框架) (5 ...
-
2023年度佳作:AIGC、AGI、GhatGPT 与人工智能大模型的创新与前景展望_ghatai
还有兄弟不知道网络安全面试可以提前刷题吗?费时一周整理的160+网络安全面试题,金九银十,做网络安全面试里的显眼包! 王岚嵚工程师面试题(附答案),只能帮兄弟们到这儿了!如果你能答对70%,找一个安全工作,问题不大。 对于有1-3年工作经验,想要跳槽的...
-
AIGC专题报告:通过NPU和异构计算开启终端侧生成式AI
今天分享的是AIGC系列深度研究报告:《AIGC专题:通过NPU和异构计算开启终端侧生成式AI》。 (报告出品方:Qualcomm) 摘要 生成式 AI 变革已经到来。随着生成式AI 用例需求在有着多样化要求和计算需求的垂直领域不断增加,我们显然需要...
-
OpenAI新作署名Ilya,提取1600万个特征看透GPT-4大脑!
【新智元导读】今天,OpenAI发布了一篇GPT-4可解释性的论文,似乎是作为前两天员工联名信的回应。网友细看论文才发现,这居然是已经解散的「超级对齐」团队的「最后之作」。 前两天,OpenAI的一群员工刚刚联名发表公开信,表示自主的AI系统正在失控,呼吁...
-
快速学会一个算法,CNN
今天给大家分享一个超强的算法,CNN 卷积神经网络(Convolutional Neural Network,CNN)是一种深度学习模型,广泛应用于图像和视频分析、自然语言处理和其他相关领域。CNN 通过模拟生物视觉系统的处理方式,能够自动学习数据的层次...
-
基于机器学习的金融欺诈检测模型
作者 | 陈峻 审校 | 重楼 引言 如今,基于互联网服务的欺诈案例时常登顶媒体头条,而使用在线服务和数字交易的金融行业尤其成为了重灾区。网络洗钱、保险欺诈、网银盗用、虚假银行交易等复杂金融欺诈行为层出不穷,我们亟待通过行之有效的欺诈识别与检测的...
-
[从0开始AIGC][Transformer相关]:算法的时间和空间复杂度
一、算法的时间和空间复杂度 文章目录 一、算法的时间和空间复杂度 1、时间复杂度 2、空间复杂度 二、Transformer的时间复杂度分析 1、 self-attention 的时间复杂度 2、 多头注意力机制的时间复杂度 三...
-
CLIP当RNN用入选CVPR:无需训练即可分割无数概念|牛津大学&谷歌研究院
循环调用CLIP,无需额外训练就有效分割无数概念。 包括电影动漫人物,地标,品牌,和普通类别在内的任意短语。 牛津大学与谷歌研究院联合团队的这项新成果,已被CVPR 2024接收,并开源了代码。 团队提出名为CLIP as RNN(简称CaR)的新技...
-
LLMs之llama3-from-scratch:llama3-from-scratch(从头开始利用pytorch来实现并解读LLaMA-3模型的每层代码)的简介、核心思路梳理
LLMs之llama3-from-scratch:llama3-from-scratch(从头开始利用pytorch来实现并解读LLaMA-3模型的每层代码 的简介、核心思路梳理 导读:这篇论文实现了transformer网络的llama3模型...
-
文心一言:百度AI大语言模型的崛起
文心一言:百度AI大语言模型的崛起 1. 背景介绍 1.1 人工智能的发展历程 人工智能(Artificial Intelligence, AI 是当代科技发展的重要领域,自20世纪50年代诞生以来,已经经历了几个重要的发展阶段。早期的人工智能系统主...
-
提高技能的十个生成式人工智能证书和课程
虽然现在才刚刚出现,但人工智能证书和证书项目可以帮助你学习新技能,并有可能创造新的职业机会。这里有10条值得考虑。 生成式人工智能即将颠覆几乎所有行业,随着越来越多的企业寻求利用该技术实现各种数字和运营计划,对拥有广受追捧的人工智能技能的IT专业人员的...
-
大模型到底有没有智能?一篇文章给你讲明明白白
生成式人工智能 (GenAI[1] 和大语言模型 (LLM[2] ,这两个词汇想必已在大家的耳边萦绕多时。它们如惊涛骇浪般席卷了整个科技界,登上了各大新闻头条。ChatGPT,这个神奇的对话助手,也许已成为你形影不离的良师益友。 然而,在这场方兴未艾的...
-
机器学习中不得不知的数学基础
随着各类语言库和框架的不断增加,机器学习变得越来越受欢迎。人们在各个领域更容易找到人工智能和机器学习的应用。然而,依赖库和框架来使用人工智能可能不会使人们成为该领域的专家。虽然编码框架的支持增加了可用性,但要在人工智能行业取得成功,我们必须深入理解代码背...
-
改进的检测算法:用于高分辨率光学遥感图像目标检测
本文经计算机视觉研究院公众号授权转载,转载请联系出处。 01 前景概要 目前,难以在检测效率和检测效果之间获得适当的平衡。我们就研究出了一种用于高分辨率光学遥感图像中目标检测的增强YOLOv5算法,利用多层特征金字塔、多检测头策略和混合注意力模块来提高...
-
YoloCS:有效降低特征图空间复杂度
本文经计算机视觉研究院公众号授权转载,转载请联系出处。 论文地址:YOLOCS: Object Detection based on Dense Channel Compression for Feature Spatial Solidificatio...
-
Llama改进之——均方根层归一化RMSNorm
引言 在学习完GPT2之后,从本文开始进入Llama模型系列。 本文介绍Llama模型的改进之RMSNorm(均方根层归一化 。它是由Root Mean Square Layer Normalization论文提出来的,可以参阅其论文笔记1。 L...
-
AI预测极端天气提速5000倍!微软发布Aurora,借AI之眼预测全球风暴
自人类有历史以来,就一直执着于预测天气,以各种方式破解「天空之语」,我们慢慢发现,草木、云层似乎都与天气有关,这不仅仅是因为人类从事生产的需要,也是人类想要对着大风歌唱、在月光下吟诗的需要。 《冰与火之歌》中的风雨歌师,就是通过歌声和吟唱来预测天气和风暴...
-
苏妈杀疯了:移动端最强NPU算力达50TOPS,最强AI芯片挑战英伟达
一年一度的 Computex 科技大会成为了 GPU 厂商们秀肌肉的舞台,其中当属英伟达和 AMD 最为亮眼。英伟达现场拿出了量产版 Blackwell 芯片,还公布了未来三年的产品路线,包括下一代 Rubin AI 平台。 AMD 当然也不甘示弱,CE...
-
Mamba-2新架构出世一统江湖!普林斯顿CMU华人再出神作,性能狂飙8倍
年前,Mamba被顶会ICLR拒稿的消息曾引起轩然大波。 甚至有研究人员表示:如果这种工作都被拒了,那我们这些「小丑」要怎么办? 这次,新一代的Mamba-2卷土重来、再战顶会,顺利拿下了ICML 2024! 仍是前作的两位大佬(换了个顺序),仍是熟...
-
挑战英伟达!AMD亮出旗下最强AI芯片锐龙AI 300系列 算力达50TOPS
在一年一度的Computex科技大会上,GPU厂商们展示了他们的最新技术成果。其中,英伟达和AMD的表现尤为突出。 英伟达在会上展示了量产版的Blackwell芯片,并宣布了未来三年的产品路线图,包括下一代Rubin AI平台。而AMD的CEO苏姿丰则展示...
-
零基础也能搞懂卷积神经网络原理!超详细!
相信和笔者一样爱技术对AI兴趣浓厚的小伙伴们,一定对卷积神经网络并不陌生, 也一定曾经对如此“高级”的名字困惑良久。笔者今天将从零开始走进卷积神经网络的世界~与大家分享! 在深入了解卷积神经网络之前,我们先看看图像的原理。 图像原理 图像在计算机中是通...
-
具身智能的视觉-语言-动作模型:综述
本文经自动驾驶之心公众号授权转载,转载请联系出处。 24年5月论文“A Survey on Vision-Language-Action Models for Embodied AI”。 深度学习已在计算机视觉、自然语言处理和强化学习等许多领域取得了显著...
-
深度解析:人工智能作画算法的原理与技术
引言 在数字艺术的探索中,人工智能(AI)作画算法以其独特的创造性和艺术性引起了广泛的兴趣。这些算法不仅仅是简单的图像处理工具,它们背后蕴藏着复杂的神经网络和深度学习模型。本文将深入探讨AI作画算法的原理与技术,揭示其背后的复杂性和魅力。 1. 数据...
-
微软ML Copilot框架释放机器学习能力
摘要:大模型席卷而来,通过大量算法模型训练推理,能根据人类输入指令产生图文,其背后是大量深度神经网络模型在做运算,这一过程称之为机器学习,本文从微软语言大模型出发,详解利用大型语言模型(Large Language Models, LLMs)解决实际机器学...
-
Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积
在 Transformer 大一统的时代,计算机视觉的 CNN 方向还有研究的必要吗? 今年年初,OpenAI 视频大模型 Sora 带火了 Vision Transformer(ViT)架构。此后,关于 ViT 与传统卷积神经网络(CNN)谁更厉害的争...
-
不想炸薯条的Ilya和不送GPU的英伟达,Hinton最新专访:道路千万条,安全第一条
从谷歌离职一年之际,「人工智能教父」Hinton接受了采访。 ——也许是因为徒弟Ilya终于被从核设施中放了出来?(狗头) 视频地址:https://www.youtube.com/watch?v=tP-4njhyGvo 当然了,采访教父的小伙子也非等...