解码器 - AIGC资讯

Stable Diffusion原理说明

本文参考：深入浅出讲解Stable Diffusion原理，新手也能看明白 - 知乎目录 1、Stable Diffusion能做什么？ 2、扩散模型（Diffusion model）（1）前向扩散（Forward Diffusion）...

人工智能 2024-10-05 人工智能

1901阅读

开源语音实时交互新突破：LLaMA-Omni实现大语言模型无缝语音交互

像 GPT-4o 这样的模型通过语音实现了与大型语言模型（LLMs）的实时交互，与基于文本的传统交互相比，显著提升了用户体验。然而，目前在如何构建基于开源 LLMs 的语音交互模型方面仍缺乏探索。为了解决这个问题，我们提出了 LLaMA-Omni，这是一个...

生成式AI 2024-10-04 人工智能

1744阅读

中科院提出GPT-4o实时语音交互的开源对手：Llama-Omni

论文：LLaMA-Omni: Seamless Speech Interaction with Large Language Models地址：https://arxiv.org/pdf/2409.06666 研究背景研...

生成式AI 2024-10-01 人工智能

1396阅读

保姆级 Stable Diffusion 教程，看完这篇就够了！

在美国科罗拉多州举办了一场新兴数字艺术家竞赛，一幅名为《太空歌剧院》的作品获得“数字艺术/数字修饰照片”类别的一等奖，神奇的是，该作品的作者并没有绘画基础，这幅画是他用 AI 生成的。这让人们充分见识到AI 在绘画领域惊人的创造力，AI 作品不仅可...

AIGC 2024-10-01 人工智能

1534阅读

Meta Llama 3介绍及其关键技术

随着深度学习算法的突破和发展，语言模型已经成为连接人与机器的重要桥梁。在这一领域中，Meta的Llama 3 作为最新一代的大规模预训练模型，凭借其卓越的性能和广泛的应用前景，正逐渐成为行业内的佼佼者。 Llama 3 的研发团队继承了前代模型的技术优势...

AIGC 2024-09-30 人工智能

1779阅读

Swift Diffusion: 在Swift中实现Stable Diffusion模型

Swift Diffusion: 将Stable Diffusion带到移动设备 Swift Diffusion是一个雄心勃勃的项目,旨在将强大的Stable Diffusion图像生成模型移植到Swift平台上。该项目由Liu Liu开发,目标是让St...

AIGC 2024-09-30 人工智能

1463阅读

AI音频成诈骗神器！律师父亲险被骗走21万，3秒原声即可克隆声音

【新智元导读】Deepfake到底有多可怕?国外一名律师的父亲，险些陷入一场巨大AI骗局。诈骗者借助AI克隆其儿子的声音，伪造车祸事故要挟3万保释金。GenAI技术犯罪泛滥同时，科学家们也在寻找破魔之道。 AI泛滥成灾的时代，真假孰能分辨? 最近，国外一位...

生成式AI 2024-09-30 人工智能

1148阅读

腾讯HunyuanDit代码解析

注意：本文仅供自己记录学习过程使用。训练全参训练过程输入图像用VAE编码得到输入的x_start(1,4,128,128 ；文本的两个特征：bert的encoder feature(1,77,1024 和T5 的feature(1,256...

人工智能 2024-09-30 人工智能

1459阅读

Stable Diffusion WebUI Forge 支持 Flux 了！

大家好，我是每天分享AI应用的萤火君！ Flux横空出世有段时间了，模型效果也得到了广泛的认可，但是 Stable Diffusion WebUI 官方迟迟没有跟进，据说是因为要修改很多底层的处理机制，加之ComfyUI如火如荼，可能越南大佬的心气也不是...

生成式AI 2024-09-29 人工智能

2258阅读

[从0开始AIGC][LLM]：LLM中Encoder-Only or Decoder-Only？为什么主流LLM是Decoder-Only？

LLM中Encoder-Only or Decoder-Only & 为什么主流LLM是Decoder-Only？文章目录 LLM中Encoder-Only or Decoder-Only & 为什么主流LLM是Dec...

大数据 2024-09-28 人工智能

1780阅读

Datewhale×魔搭 AI夏令营第四期 AIGC方向Task3笔记

·Part1 ComfyUI 1.ComfyUI简介： GUI 是 "Graphical User Interface"（图形用户界面）的缩写。简单来说，GUI 就是你在电脑屏幕上看到的那种有图标、按钮和菜单的交互方式。 ComfyUI 是GUI的一...

AIGC 2024-09-26 人工智能

1135阅读

万字长文｜LLM大模型基础入门（非常详细）从入门到精通系列之：（三）Transformer 架构

...

生成式AI 2024-09-24 未命名

1151阅读

Datawhale X 魔搭 AI夏令营--AIGC Task3

Datawhale X 魔搭 AI夏令营–AIGC Task3 文章目录 Datawhale X 魔搭 AI夏令营--AIGC Task3 ComfyUI 实践 Lora微调 ComfyUI 目前主流GUI有三种：使用...

AIGC 2024-09-24 人工智能

1272阅读

Lag-Llama：时间序列大模型开源了！

之前我们介绍过TimeGPT，它是第一个时间序列的大模型，具有零样本推理、异常检测等能力。TimeGPT引发了对时间序列基础模型的更多研究，但是它是一个专有模型，只能通过API访问。如今，终于出现一个用于时间序列预测的开源大模型：Lag-Llama...

人工智能 2024-09-23 人工智能

1339阅读

Datawhale 魔搭 AI夏令营第四期 AIGC方向 -Tesk3-进阶上分-实战优化

前言在上一个task中，我们对baseline进行了逐行精读，我们学会了使用AI工具来帮助我们更快更好地学习。另外我们制作了一个话剧连环画，同时我们对零代码文生图平台secpter webui也有了一个初步的理解。今...

生成式AI 2024-09-23 人工智能

1221阅读

24全网最全stable diffusion模型讲解！快来！！新手必收藏！！

前言手把手教你入门绘图超强的AI绘画程序Stable Diffusion，用户只需要输入一段图片的文字描述，即可生成精美的绘画。给大家带来了全新Stable Diffusion保姆级教程资料包（文末可获取） AI模型最新展现出的图像生成能力远远超出...

生成式AI 2024-09-21 人工智能

1118阅读

【HuggingFace Transformers】LlamaModel源码解析

LlamaModel源码解析 1. LlamaModel 介绍 2. LlamaModel类源码解析 3. 4维因果注意力掩码生成 1. LlamaModel 介绍 LlamaModel 是一个基于 Transformer 架构...

AIGC 2024-09-21 人工智能

2379阅读

探索和构建 LLaMA 3 架构：深入探究组件、编码和推理技术

Meta 正在加大在人工智能 (AI 竞赛中的力度，推出了新的开源 AI 模型 Llama 3 以及新版 Meta AI。这款虚拟助手由 Llama 3 提供支持，现已在所有 Meta 平台上可用。以下是您需要了解的有关 Meta 最新大型语言模...

大数据 2024-09-14 人工智能

1274阅读

Datawhale X 魔搭 AI夏令营第四期魔搭-AIGC方向 task03笔记

在task02中，我们对baseline有了深度了解，我们学会了用AI工具来帮助我们学习。另外，我们制作了话剧连环画。我们今天的任务是了解微调的基本原理，然后我们会对微调的各种参数有一个更加清楚的了解，来实现一个更好的效果，并且在这个Task中会给大家...

AIGC 2024-09-13 人工智能

984阅读

【大模型】llama系列模型基础

前言：llama基于transformer架构，与GPT相似，只用了transformer的解码器部分。本文主要是关于llama，llama2和llama3的结构解读。目录 1. llama 1.1 整体结构 1.2 RoPE 1...

生成式AI 2024-09-10 人工智能

1655阅读

[AI绘画] 简明原生 ComfyUI 三重超细节放大教程（附工作流）

本教程将从0构建 ComfyUI 三重细节填充放大工作流，人有多大胆，图有多大产 **（建议横屏）**鬼灭之刃 · 堕姬 & 甘露寺蜜璃 · 三重细节填充放大 · 16K(15488×8832 「四种放大」 ”潜空间“和”像素空间”，图像放...

生成式AI 2024-09-09 人工智能

4001阅读

【AIGC从零开始】AIGC小白学习心得第二讲：3D生成模型

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、Stable Video 3D（sv3d）二、TripoSR 三、LRM系列 1.LRM 2.GS-LRM 3.OpenLRM 四、CRM 五...

大数据 2024-09-08 人工智能

1356阅读

Datawhale X 魔搭第四期 AIGC文生图方向-Task03笔记

Hello，各位小伙伴们，继上一次我们精读并跑通了baseline2后，我们对AIGC文生图方向又有了更进一步的了解。今天呢我们实现AIGC方向的进阶上分，还在犹豫什么，还不快快行动起来~ 好，话不多说，今天我们就来聊聊ComfyUI和Lora微调吧~...

人工智能 2024-09-08 人工智能

1240阅读

国内首个！端到端语音大模型心辰Lingo在外滩大会正式发布上线

9月5日，在外滩大会“大模型的创造力边界与应用想象力”论坛上，大模型创业企业西湖心辰正式发布并上线国内首个端到端语音大模型“心辰Lingo”。 “心辰Lingo”实现了端到端语音技术，在处理对话时直接理解语音，捕捉语气、节奏和情绪，并进行语音回复，减少了信...

AIGC 2024-09-05 人工智能

1027阅读

使用PyTorch从零构建Llama 3

我们上次发了用PyTorch从零开始编写DeepSeek-V2的文章后，有小伙伴留言说希望介绍一下Llama 3。那么今天他就来了，本文将详细指导如何从零开始构建完整的Llama 3模型架构，并在自定义数据集上执行训练和推理。 [图1]：Llama...

人工智能 2024-09-05 人工智能

926阅读

Meta最新SAM2模型开源直接封神

2024年7月29日，Meta在官网发布SAM2开源消息：segment-anything-2 开源地址：https://github.com/facebookresearch/segment-anything-2 paper：sam-2-seg...

大数据 2024-08-31 人工智能

1804阅读

让AI更懂物理世界，人大北邮上海AI Lab等提出多模态分割新方法

让AI像人类一样借助多模态线索定位感兴趣的物体，有新招了! 来自人大高瓴GeWu-Lab、北邮、上海AI Lab等机构的研究人员提出Ref-AVS（Refer and Segment Objects in Audio-Visual Scenes，视听场景下...

大数据 2024-08-31 人工智能

976阅读

AIGC大模型产品经理高频面试大揭秘‼️

近期有十几个学生在面试大模型产品经理（薪资还可以，详情见下图），根据他们面试（包括1-4面）中出现高频大于3次的问题汇总如下，一共32道题目（有答案）。 29.讲讲T5和Bart的区别，讲讲Bart的DAE任务 T5（Text-to-Text Tr...

人工智能 2024-08-31 人工智能

1146阅读

精通 Stable Diffusion 调优秘籍

一、Stable Diffusion 调优概览 Stable Diffusion 作为一款强大的 AI 绘画工具，其调优具有至关重要的意义。通过合理的调优，可以显著提升图像生成的质量、速度和准确性，满足用户更加多样化和精细化的需求。调优主要涵盖了...

AIGC 2024-08-31 人工智能

1089阅读

Datawhale AI夏令营第四期的学习活动—AIGC Task3笔记

目录一、工具初探一ComfyUI应用场景探索 1.初识ComfyUI 1.1 什么是ComfyUI 1.2 ComfyUI核心模块 1.3 ComfyUI图片生成流程 1.4 ComfyUI的优势 2.20分钟速通安装ComfyUI...

大数据 2024-08-30 人工智能

945阅读

从零开始快速使用comfyUI进行文生图或者图生视频制作

前言今天花时间试了试怎么用 ComfyUI，今天晚上就来介绍一下，怎么简单使用。上面是用 comfyUI 生成的视频。安装首先进行安装。在 github 上搜索 comfyUI，第一个就是，点进去然后点击左侧 Release...

生成式AI 2024-08-30 人工智能

4160阅读

Datawhale AI夏令营第四期AIGC-3进阶上分-实战优化

Task3学习链接 Datawhale (linklearner.com 1. ComfyUI的安装与使用 ComfyUI 是GUI"Graphical User Interface"（图形用户界面）的一种，是基于节点工作的用户界面，主要用于操作图...

人工智能 2024-08-30 人工智能

1030阅读

一文看懂llama2 (原理&模型&训练)

LLaMA2是一种基于Transformer架构的先进语言模型，广泛应用于自然语言处理（NLP）任务，如文本生成、机器翻译和问答系统等。本文将从其核心原理、模型结构以及训练方法三个方面进行详细探讨。一、核心原理 LLaMA2的核心原理是基于自注意力机...

人工智能 2024-08-27 人工智能

1116阅读

Comfyui之Lora的使用

上一篇我们学会了图片高清放大，这一篇我们掌握下一个重要的节点，就是Lora，我们知道大模型是通过非常多的图片训练出来的，而Lora就是通过一部分特定样式的图片训练出来的，LORA节点是为了补充大模型的，也可以说Lora就是大模型的一个外挂，想象一下，假如某...

生成式AI 2024-08-26 人工智能

4629阅读

Datawhale X 魔搭 AI夏令营第四期 AIGC task3

part 1：认识comfyUI 1.初识ComfyUI 1.1什么是Comfy UI GUI是"Graphical User Interface"（图形用户界面）的缩写。简单来说，GUI 就是你在电脑屏幕上看到的那种有图标、按钮和菜单的交互方式。...

大数据 2024-08-26 人工智能

928阅读

CVPR2024|Diffusion模型轻量化与计算效率优化

前言做算法应该都有顶会梦吧，发不了顶会只能刷一刷顶会了哈哈，向顶会大佬学习扩散模型的训练和推理都需要巨大的计算成本（显卡不足做DDPM的下游任务实在是太难受了），所以本文整理汇总了部分CVPR2024中关于扩散模型的轻量化与计算效率优化的相关论文...

人工智能 2024-08-26 人工智能

2781阅读

大模型算法必学，万字长文Llama-1到Llama-3详细拆解

导读 Llama系列的大语言模型在多个自然语言处理任务中表现出色，包括文本分类、情感分析和生成式问答，本质是使用 Transformer 架构并结合预训练和微调技术。本文详细讲解Llama-1到Llama-3，值得读者点赞收藏！引言在AI领域...

AIGC 2024-08-25 人工智能

1478阅读

DALL·E 2 模型实现与运行指南

DALL·E 2 模型实现与运行指南 DALLE2-pytorchImplementation of DALL-E 2, OpenAI's updated text-to-image synthesis neural network, in Pytor...

大数据 2024-08-25 人工智能

1686阅读

具身智能又进一步！卡内基梅隆&Meta&苏黎世联邦实现虚拟人超灵活抓取

论文链接：https://arxiv.org/pdf/2407.11385 github链接：https://www.zhengyiluo.com/Omnigrasp-Site/ 亮点直击本文设计了一种灵巧且通用的人形机器人运动表示，这显...

人工智能 2024-08-23 人工智能

1274阅读

【多模态大模型】LLaMA in arXiv 2023

一、引言论文： LLaMA: Open and Efficient Foundation Language Models作者： Meta AI代码： LLaMA特点：该方法在Transformer的基础上增加了Pre-normalization (...

大数据 2024-08-22 人工智能

1470阅读

【Stable Diffusion】最强模型——Flux推荐和下载

前言 Flux是一个由黑森林实验室（Black Forest Lab）推出的模型，开发人员由Stable Diffusion前离职人员构成。做到了很多SD和MJ都做不到或者很难做到的事情。其特点主要如下：参数规模大****：官方号称模型有12B...

AIGC 2024-08-22 人工智能

3519阅读

MSRA古纾旸：2024年，视觉生成领域最重要的问题有哪些？

文章链接: https://arxiv.org/pdf/2407.18290 亮点直击概述了视觉生成领域中的各种问题。这些问题的核心在于如何分解视觉信号，其他所有问题都与这一核心问题密切相关，并源于不适当的信号分解方法。本文旨...

人工智能 2024-08-22 人工智能

938阅读

AIGC学习笔记

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档前言提示：这里可以添加本文要记录的大概内容：记录一下学习AIGC，参考链接: 爆火的AIGC到底是什么提示：以下是本篇文章正文内容，下面案例可供参考一、stab...

AIGC 2024-08-21 人工智能

889阅读

stable diffusion--小白学习步骤

1.看一下Unet网络的讲解_哔哩哔哩_bilibili，了解Unet网络 2.看一下【生成式AI】Diffusion Model 原理剖析 (1/4 _哔哩哔哩_bilibili，起码要看前3/6个视频 3.看一下超详细的扩散模型（Diffusion...

大数据 2024-08-21 人工智能

840阅读

大白话讲透AI画图：Stable Diffusion

Stable Diffusion 是一种从文本生成 AI 图像的潜空间扩散模型，它不是在高维图像空间中操作，而是首先将图像压缩到潜在空间（latent space）中。我们将深入了解它的工作机制。知道工作机制有什么用？除了其本身就是个非常值得了解的内容...

生成式AI 2024-08-20 人工智能

984阅读

微调（一）

微调有两种办法，一是模型全部参数的微调，二是少量参数高效的微调。前者由于参数多，需要的GPU多，并且全参数微调可能把模型带偏，后者只需要微调少量参数，需要的GPU少，还可能达到不错的效果，成为大家研究的重点，取了个专有名词Parameter-Effic...

AIGC 2024-08-20 人工智能

1207阅读

【已解决】报错“copying a param with shape torch.Size([1280, 1280]) from checkpoint”

在使用SDXL时，报错“copying a param with shape torch.Size([1280, 1280] from checkpoint, the shape in current model is torch.Size([1280,...

AIGC 2024-08-19 人工智能

1006阅读

AI绘画：艺术与科技融合的新篇章

随着人工智能（AI）技术的飞速发展，AI绘画作为一种新兴的艺术形式，正逐步改变着传统艺术创作的格局。从早期的简单模仿到如今的个性化创作，AI绘画不仅提升了艺术创作的效率和质量，还开辟了全新的应用场景和商业模式。本文将深入探讨AI绘画的发展历程和现状、技术...

AIGC 2024-08-16 人工智能

1231阅读

AIGC-ToonCrafter: Generative Cartoon Interpolation-CVPR2024

论文:https://arxiv.org/pdf/2405.17933 代码:https://doubiiu.github.io/projects/ToonCrafter 给定首尾帧，生成逼真生动的动画，动画插值生成 MOTIVATION T...

AIGC 2024-08-15 人工智能

1105阅读

ComfyUI基础篇：Stable Diffusion 基础原理详述

前言个人认为学习 ComfyUI 应该先从理论学起。与传统绘图工具（如 Photoshop 或 Figma）相比，AI 绘图工具有着显著不同。首先，许多设置和操作在 AI 绘图工具中是非可视化的，这意味着即使你更改了某个配置，界面上也未必会有任何变...

大数据 2024-08-14 人工智能

1186阅读