-
Stable Diffusion原理说明
本文参考:深入浅出讲解Stable Diffusion原理,新手也能看明白 - 知乎 目录 1、Stable Diffusion能做什么? 2、扩散模型(Diffusion model) (1)前向扩散(Forward Diffusion)...
-
开源语音实时交互新突破:LLaMA-Omni实现大语言模型无缝语音交互
像 GPT-4o 这样的模型通过语音实现了与大型语言模型(LLMs)的实时交互,与基于文本的传统交互相比,显著提升了用户体验。然而,目前在如何构建基于开源 LLMs 的语音交互模型方面仍缺乏探索。为了解决这个问题,我们提出了 LLaMA-Omni,这是一个...
-
中科院提出GPT-4o实时语音交互的开源对手:Llama-Omni
论文:LLaMA-Omni: Seamless Speech Interaction with Large Language Models地址:https://arxiv.org/pdf/2409.06666 研究背景 研...
-
保姆级 Stable Diffusion 教程,看完这篇就够了!
在美国科罗拉多州举办了一场新兴数字艺术家竞赛,一幅名为《太空歌剧院》的作品获得“数字艺术/数字修饰照片”类别的一等奖,神奇的是,该作品的作者并没有绘画基础,这幅画是他用 AI 生成的。 这让人们充分见识到AI 在绘画领域惊人的创造力,AI 作品不仅可...
-
Meta Llama 3介绍及其关键技术
随着深度学习算法的突破和发展,语言模型已经成为连接人与机器的重要桥梁。在这一领域中,Meta的Llama 3 作为最新一代的大规模预训练模型,凭借其卓越的性能和广泛的应用前景,正逐渐成为行业内的佼佼者。 Llama 3 的研发团队继承了前代模型的技术优势...
-
Swift Diffusion: 在Swift中实现Stable Diffusion模型
Swift Diffusion: 将Stable Diffusion带到移动设备 Swift Diffusion是一个雄心勃勃的项目,旨在将强大的Stable Diffusion图像生成模型移植到Swift平台上。该项目由Liu Liu开发,目标是让St...
-
AI音频成诈骗神器!律师父亲险被骗走21万,3秒原声即可克隆声音
【新智元导读】Deepfake到底有多可怕?国外一名律师的父亲,险些陷入一场巨大AI骗局。诈骗者借助AI克隆其儿子的声音,伪造车祸事故要挟3万保释金。GenAI技术犯罪泛滥同时,科学家们也在寻找破魔之道。 AI泛滥成灾的时代,真假孰能分辨? 最近,国外一位...
-
腾讯HunyuanDit代码解析
注意:本文仅供自己记录学习过程使用。 训练 全参训练过程 输入图像用VAE编码得到输入的x_start(1,4,128,128 ;文本的两个特征:bert的encoder feature(1,77,1024 和T5 的feature(1,256...
-
Stable Diffusion WebUI Forge 支持 Flux 了!
大家好,我是每天分享AI应用的萤火君! Flux横空出世有段时间了,模型效果也得到了广泛的认可,但是 Stable Diffusion WebUI 官方迟迟没有跟进,据说是因为要修改很多底层的处理机制,加之ComfyUI如火如荼,可能越南大佬的心气也不是...
-
[从0开始AIGC][LLM]:LLM中Encoder-Only or Decoder-Only?为什么主流LLM是Decoder-Only?
LLM中Encoder-Only or Decoder-Only & 为什么主流LLM是Decoder-Only? 文章目录 LLM中Encoder-Only or Decoder-Only & 为什么主流LLM是Dec...
-
Datewhale×魔搭 AI夏令营第四期 AIGC方向Task3笔记
·Part1 ComfyUI 1.ComfyUI简介: GUI 是 "Graphical User Interface"(图形用户界面)的缩写。简单来说,GUI 就是你在电脑屏幕上看到的那种有图标、按钮和菜单的交互方式。 ComfyUI 是GUI的一...
-
万字长文|LLM大模型基础入门(非常详细)从入门到精通系列之:(三)Transformer 架构
...
-
Datawhale X 魔搭 AI夏令营--AIGC Task3
Datawhale X 魔搭 AI夏令营–AIGC Task3 文章目录 Datawhale X 魔搭 AI夏令营--AIGC Task3 ComfyUI 实践 Lora微调 ComfyUI 目前主流GUI有三种:使用...
-
Lag-Llama:时间序列大模型开源了!
之前我们介绍过TimeGPT,它是第一个时间序列的大模型,具有零样本推理、异常检测等能力。TimeGPT引发了对时间序列基础模型的更多研究,但是它是一个专有模型,只能通过API访问。 如今,终于出现一个用于时间序列预测的开源大模型:Lag-Llama...
-
Datawhale 魔搭 AI夏令营 第四期 AIGC方向 -Tesk3-进阶上分-实战优化
前言 在上一个task中,我们对baseline进行了逐行精读,我们学会了使用AI工具来帮助我们更快更好地学习。另外我们制作了一个话剧连环画,同时我们对零代码文生图平台secpter webui也有了一个初步的理解。 今...
-
24全网最全stable diffusion模型讲解!快来!!新手必收藏!!
前言 手把手教你入门绘图超强的AI绘画程序Stable Diffusion,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新Stable Diffusion保姆级教程资料包(文末可获取) AI模型最新展现出的图像生成能力远远超出...
-
【HuggingFace Transformers】LlamaModel源码解析
LlamaModel源码解析 1. LlamaModel 介绍 2. LlamaModel类 源码解析 3. 4维因果注意力掩码生成 1. LlamaModel 介绍 LlamaModel 是一个基于 Transformer 架构...
-
探索和构建 LLaMA 3 架构:深入探究组件、编码和推理技术
Meta 正在加大在人工智能 (AI 竞赛中的力度,推出了新的开源 AI 模型 Llama 3 以及新版 Meta AI。这款虚拟助手由 Llama 3 提供支持,现已在所有 Meta 平台上可用。 以下是您需要了解的有关 Meta 最新大型语言模...
-
Datawhale X 魔搭 AI夏令营第四期 魔搭-AIGC方向 task03笔记
在task02中,我们对baseline有了深度了解,我们学会了用AI工具来帮助我们学习。另外,我们制作了话剧连环画。 我们今天的任务是了解微调的基本原理,然后我们会对微调的各种参数有一个更加清楚的了解,来实现一个更好的效果,并且在这个Task中会给大家...
-
【大模型】llama系列模型基础
前言:llama基于transformer架构,与GPT相似,只用了transformer的解码器部分。本文主要是关于llama,llama2和llama3的结构解读。 目录 1. llama 1.1 整体结构 1.2 RoPE 1...
-
[AI绘画] 简明原生 ComfyUI 三重超细节放大教程(附工作流)
本教程将从0构建 ComfyUI 三重细节填充放大工作流,人有多大胆,图有多大产 **(建议横屏)**鬼灭之刃 · 堕姬 & 甘露寺蜜璃 · 三重细节填充放大 · 16K(15488×8832 「四种放大」 ”潜空间“和”像素空间”,图像放...
-
【AIGC从零开始】AIGC小白学习心得第二讲:3D生成模型
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一、Stable Video 3D(sv3d) 二、TripoSR 三、LRM系列 1.LRM 2.GS-LRM 3.OpenLRM 四、CRM 五...
-
Datawhale X 魔搭 第四期 AIGC文生图方向-Task03笔记
Hello,各位小伙伴们,继上一次我们精读并跑通了baseline2后,我们对AIGC文生图方向又有了更进一步的了解。今天呢我们实现AIGC方向的进阶上分,还在犹豫什么,还不快快行动起来~ 好,话不多说,今天我们就来聊聊ComfyUI和Lora微调吧~...
-
国内首个!端到端语音大模型心辰Lingo在外滩大会正式发布上线
9月5日,在外滩大会“大模型的创造力边界与应用想象力”论坛上,大模型创业企业西湖心辰正式发布并上线国内首个端到端语音大模型“心辰Lingo”。 “心辰Lingo”实现了端到端语音技术,在处理对话时直接理解语音,捕捉语气、节奏和情绪,并进行语音回复,减少了信...
-
使用PyTorch从零构建Llama 3
我们上次发了用PyTorch从零开始编写DeepSeek-V2的文章后,有小伙伴留言说希望介绍一下Llama 3。那么今天他就来了,本文将详细指导如何从零开始构建完整的Llama 3模型架构,并在自定义数据集上执行训练和推理。 [图1]:Llama...
-
Meta最新SAM2模型开源直接封神
2024年7月29日,Meta在官网发布SAM2开源消息:segment-anything-2 开源地址:https://github.com/facebookresearch/segment-anything-2 paper:sam-2-seg...
-
让AI更懂物理世界,人大北邮上海AI Lab等提出多模态分割新方法
让AI像人类一样借助多模态线索定位感兴趣的物体,有新招了! 来自人大高瓴GeWu-Lab、北邮、上海AI Lab等机构的研究人员提出Ref-AVS(Refer and Segment Objects in Audio-Visual Scenes,视听场景下...
-
AIGC大模型产品经理高频面试大揭秘‼️
近期有十几个学生在面试大模型产品经理(薪资还可以,详情见下图),根据他们面试(包括1-4面)中出现高频大于3次的问题汇总如下,一共32道题目(有答案)。 29.讲讲T5和Bart的区别,讲讲Bart的DAE任务 T5(Text-to-Text Tr...
-
精通 Stable Diffusion 调优秘籍
一、Stable Diffusion 调优概览 Stable Diffusion 作为一款强大的 AI 绘画工具,其调优具有至关重要的意义。通过合理的调优,可以显著提升图像生成的质量、速度和准确性,满足用户更加多样化和精细化的需求。 调优主要涵盖了...
-
Datawhale AI夏令营第四期的学习活动—AIGC Task3笔记
目录 一、工具初探一ComfyUI应用场景探索 1.初识ComfyUI 1.1 什么是ComfyUI 1.2 ComfyUI核心模块 1.3 ComfyUI图片生成流程 1.4 ComfyUI的优势 2.20分钟速通安装ComfyUI...
-
从零开始快速使用comfyUI进行文生图或者图生视频制作
前言 今天花时间试了试怎么用 ComfyUI,今天晚上就来介绍一下,怎么简单使用。 上面是用 comfyUI 生成的视频。 安装 首先进行安装。 在 github 上搜索 comfyUI,第一个就是,点进去然后点击左侧 Release...
-
Datawhale AI夏令营第四期AIGC-3进阶上分-实战优化
Task3学习链接 Datawhale (linklearner.com 1. ComfyUI的安装与使用 ComfyUI 是GUI"Graphical User Interface"(图形用户界面)的一种,是基于节点工作的用户界面,主要用于操作图...
-
一文看懂llama2 (原理&模型&训练)
LLaMA2是一种基于Transformer架构的先进语言模型,广泛应用于自然语言处理(NLP)任务,如文本生成、机器翻译和问答系统等。本文将从其核心原理、模型结构以及训练方法三个方面进行详细探讨。 一、核心原理 LLaMA2的核心原理是基于自注意力机...
-
Comfyui之Lora的使用
上一篇我们学会了图片高清放大,这一篇我们掌握下一个重要的节点,就是Lora,我们知道大模型是通过非常多的图片训练出来的,而Lora就是通过一部分特定样式的图片训练出来的,LORA节点是为了补充大模型的,也可以说Lora就是大模型的一个外挂,想象一下,假如某...
-
Datawhale X 魔搭 AI夏令营 第四期 AIGC task3
part 1:认识comfyUI 1.初识ComfyUI 1.1什么是Comfy UI GUI是"Graphical User Interface"(图形用户界面)的缩写。简单来说,GUI 就是你在电脑屏幕上看到的那种有图标、按钮和菜单的交互方式。...
-
CVPR2024|Diffusion模型轻量化与计算效率优化
前言 做算法应该都有顶会梦吧,发不了顶会只能刷一刷顶会了哈哈,向顶会大佬学习 扩散模型的训练和推理都需要巨大的计算成本(显卡不足做DDPM的下游任务实在是太难受了),所以本文整理汇总了部分CVPR2024中关于扩散模型的轻量化与计算效率优化 的相关论文...
-
大模型算法必学,万字长文Llama-1到Llama-3详细拆解
导读 Llama系列的大语言模型在多个自然语言处理任务中表现出色,包括文本分类、情感分析和生成式问答,本质是使用 Transformer 架构并结合预训练和微调技术。本文详细讲解Llama-1到Llama-3,值得读者点赞收藏! 引言 在AI领域...
-
DALL·E 2 模型实现与运行指南
DALL·E 2 模型实现与运行指南 DALLE2-pytorchImplementation of DALL-E 2, OpenAI's updated text-to-image synthesis neural network, in Pytor...
-
具身智能又进一步!卡内基梅隆&Meta&苏黎世联邦实现虚拟人超灵活抓取
论文链接:https://arxiv.org/pdf/2407.11385 github链接:https://www.zhengyiluo.com/Omnigrasp-Site/ 亮点直击 本文设计了一种灵巧且通用的人形机器人运动表示,这显...
-
【多模态大模型】LLaMA in arXiv 2023
一、引言 论文: LLaMA: Open and Efficient Foundation Language Models作者: Meta AI代码: LLaMA特点: 该方法在Transformer的基础上增加了Pre-normalization (...
-
【Stable Diffusion】最强模型——Flux推荐和下载
前言 Flux是一个由黑森林实验室(Black Forest Lab)推出的模型,开发人员由Stable Diffusion前离职人员构成。做到了很多SD和MJ都做不到或者很难做到的事情。其特点主要如下: 参数规模大****:官方号称模型有12B...
-
MSRA古纾旸:2024年,视觉生成领域最重要的问题有哪些?
文章链接: https://arxiv.org/pdf/2407.18290 亮点直击 概述了视觉生成领域中的各种问题。 这些问题的核心在于如何分解视觉信号,其他所有问题都与这一核心问题密切相关,并源于不适当的信号分解方法。 本文旨...
-
AIGC学习笔记
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 前言 提示:这里可以添加本文要记录的大概内容: 记录一下学习AIGC,参考链接: 爆火的AIGC到底是什么 提示:以下是本篇文章正文内容,下面案例可供参考 一、stab...
-
stable diffusion--小白学习步骤
1.看一下Unet网络的讲解_哔哩哔哩_bilibili,了解Unet网络 2.看一下【生成式AI】Diffusion Model 原理剖析 (1/4 _哔哩哔哩_bilibili,起码要看前3/6个视频 3.看一下超详细的扩散模型(Diffusion...
-
大白话讲透AI画图:Stable Diffusion
Stable Diffusion 是一种从文本生成 AI 图像的潜空间扩散模型,它不是在高维图像空间中操作,而是首先将图像压缩到潜在空间(latent space)中。 我们将深入了解它的工作机制。知道工作机制有什么用?除了其本身就是个非常值得了解的内容...
-
微调(一)
微调有两种办法, 一是模型全部参数的微调,二是少量参数高效的微调。前者由于参数多,需要的GPU多,并且全参数微调可能把模型带偏,后者只需要微调少量参数,需要的GPU少,还可能达到不错的效果,成为大家研究的重点,取了个专有名词Parameter-Effic...
-
【已解决】报错“copying a param with shape torch.Size([1280, 1280]) from checkpoint”
在使用SDXL时,报错“copying a param with shape torch.Size([1280, 1280] from checkpoint, the shape in current model is torch.Size([1280,...
-
AI绘画:艺术与科技融合的新篇章
随着人工智能(AI)技术的飞速发展,AI绘画作为一种新兴的艺术形式,正逐步改变着传统艺术创作的格局。从早期的简单模仿到如今的个性化创作,AI绘画不仅提升了艺术创作的效率和质量,还开辟了全新的应用场景和商业模式。本文将深入探讨AI绘画的发展历程和现状、技术...
-
AIGC-ToonCrafter: Generative Cartoon Interpolation-CVPR2024
论文:https://arxiv.org/pdf/2405.17933 代码:https://doubiiu.github.io/projects/ToonCrafter 给定首尾帧,生成逼真生动的动画,动画插值生成 MOTIVATION T...
-
ComfyUI基础篇:Stable Diffusion 基础原理详述
前言 个人认为学习 ComfyUI 应该先从理论学起。 与传统绘图工具(如 Photoshop 或 Figma)相比,AI 绘图工具有着显著不同。首先,许多设置和操作在 AI 绘图工具中是非可视化的,这意味着即使你更改了某个配置,界面上也未必会有任何变...