解码器第8页 - AIGC资讯

昆仑天工SkyWork：更懂中文的AIGC开源模型

昆仑天工SkyWork系列AIGC开源模型，由奇点智源公司研发，在2022年12月发布，覆盖图像、文本、编程等多模态内容生成能力，包括绘画、文章续写、对话、中英翻译、推理、诗词对联、菜谱撰写、合同起草、代码补全等。昆仑天工SkyWork系列模型...

人工智能 2024-01-18 人工智能

1411阅读

Stability AI发布全新代码模型Stable Code 3B，媲美70亿Code Llama，没GPU也能跑

今天，Stability AI发布了自家在2024年的第一个模型——Stable Code3B。顾名思义，Stable Code3B专注于代码能力，实际的表现也是非常亮眼。在仅仅3B参数的规模之下，达到了比肩Code Llama7B的效果。相...

生成式AI 2024-01-18 人工智能

923阅读

2023年的深度学习入门指南(24) - 处理音频的大模型 OpenAI Whisper

2023年的深度学习入门指南(24 - 处理音频的大模型 OpenAI Whisper 在这一讲之前，我们所用的大模型都是针对文本的。这一讲我们增加一个新的领域，即音频。我们将介绍OpenAI的Whisper模型，它是一个处理音频的大模型。 Wh...

生成式AI 2024-01-18 人工智能

1602阅读

Stable Diffusion with Diffusers 学习笔记: 原理+完整pipeline代码

文章目录 01 使用 02 Stable Diffusion 的工作原理 The autoencoder (VAE The U-Net The Text-encoder Latent Diffusion 又快又高效的原因 Stable Di...

大数据 2024-01-18 人工智能

1684阅读

如何将知识图谱与AIGC结合？京东是这么做的

一、导言首先介绍一下京东在电商场景下 AIGC 方面的探索。这是一个商品营销文案自动生成的全景图，自下而上首先是商品的输入信息。输入信息是异构多源的，包括商品的商详页里的图片、文本、商品的标题以及商品的知识图谱。通用的知识图谱是三元组的形式，...

大数据 2024-01-18 人工智能

1089阅读

DiffIR: Efficient Diffusion Model for Image Restoration 利用扩散模型进行图像重建

一、主要贡献 •我们提出了DiffIR，一种强大、简单、高效的基于扩散模型的的图像修复方法。与图像生成不同的是，输入图像的大部分像素都是给定的。因此，我们利用DM强大的映射能力来估计一个紧凑的IPR（IR Prior Representation，图像修...

人工智能 2024-01-18 人工智能

1022阅读

一文读懂大型语言模型参数高效微调：Prefix Tuning与LLaMA-Adapter

芝士AI吃鱼在快速发展的人工智能领域中，高效、有效地使用大型语言模型变得日益重要，参数高效微调是这一追求的前沿技术，它允许研究人员和实践者在最小化计算和资源占用的同时，重复使用预训练模型。这还使我们能够在更广泛的硬件范围内训练...

AIGC 2024-01-18 人工智能

1235阅读

使用 Transformers 为多语种语音识别任务微调 Whisper 模型

本文提供了一个使用 Hugging Face ? Transformers 在任意多语种语音识别 (ASR 数据集上微调 Whisper 的分步指南。同时，我们还深入解释了 Whisper 模型、Common Voice 数据集以及微调等理论知识，...

AIGC 2024-01-18 人工智能

1207阅读

Stable Diffusion扩散模型 + Consistency一致性模型

1 GAN到Stable Diffusion的改朝换代 2 从DDPM到Stable Diffusion发展史 2.1 DDPM 扩散过程（正向）去噪过程（反向）总结优化目标理论推导代码解析 2.2 Stable Diffu...

人工智能 2024-01-17 人工智能

1408阅读

Stability AI开年首个大模型：专写代码，支持18种编程语言，上下文100K，苹果笔记本离线就能跑

Stability AI开年第一个大模型来了！名为Stable Code 3B，参数27亿，专为写代码而生。 Stable Code 3B可理解处理18种不同的编程语言，上下文长度100K token。且它对硬件要求也不高，用MacBook Air...

人工智能 2024-01-17 人工智能

810阅读

【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting

Lag-Llama: Towards Foundation Models for Time Series Forecasting 摘要本文提出Lag-Llama，在大量时间序列数据上训练的通用单变量概率时间序列预测模型。模型在分布外泛化能力上取...

生成式AI 2024-01-17 人工智能

1194阅读

Stability AI发布全新代码模型Stable Code 3B！媲美70亿Code Llama，没GPU也能跑

今天，Stability AI发布了自家在2024年的第一个模型——Stable Code 3B。图片顾名思义，Stable Code 3B专注于代码能力，实际的表现也是非常亮眼。在仅仅3B参数的规模之下，达到了比肩Code Llama 7B的效果...

人工智能 2024-01-17 人工智能

895阅读

【AIGC】Controlnet:基于扩散模型的文生图的可控性

前言 controlnet可以让stable diffusion的生图变得可控。文章连接：https://arxiv.org/pdf/2302.05543.pdf 摘要冻结了stable diffusion的预训练模型并重用它的预训练...

AIGC 2024-01-17 人工智能

1316阅读

Stable Diffusion模型概述

Stable Diffusion 1. Stable Diffusion能做什么？ 2. 扩散模型 2.1 正向扩散 2.2 反向扩散 3. 训练如何进行 3.1 反向扩散 3.2 Stable Diffusion模型 3.3 潜在扩散模...

大数据 2024-01-17 人工智能

1472阅读

Stability AI发布Stable Code 3B模型，没有GPU也能本地运行

在文生图领域大火的 Stability AI，今天宣布了其 2024 年的第一个新 AI 模型：Stable Code 3B。顾名思义，Stable Code 3B 是一个拥有 30 亿参数的模型，专注于辅助代码任务。无需专用 GPU 即可在笔记本电...

大数据 2024-01-17 人工智能

837阅读

机器人领域首个开源视觉-语言操作大模型，RoboFlamingo框架激发开源VLMs更大潜能

近年来，大模型的研究正在加速推进，它逐渐在各类任务上展现出多模态的理解和时间空间上的推理能力。机器人的各类具身操作任务天然就对语言指令理解、场景感知和时空规划等能力有着很高的要求，这自然引申出一个问题：能不能充分利用大模型能力，将其迁移到机器人领域，直接...

大数据 2024-01-17 人工智能

915阅读

深入浅出解析Stable Diffusion完整核心基础知识 | 【算法兵器谱】

Rocky Ding 公众号：WeThinkIn 最新更新： Rocky也一直在更新Stable Diffusion系列的文章内容，包括最新发布的Stable Diffusion XL。Rocky都进行...

AIGC 2024-01-17 人工智能

1504阅读

【stable diffusion原理解读通俗易懂，史诗级万字爆肝长文，喂到你嘴里】

文章目录一、前言（可跳过）二、stable diffusion 1.clip 2.diffusion model forward diffusion （前向扩散）逆向扩散（reverse diffusion）采样图阶段小结 3....

人工智能 2024-01-16 人工智能

875阅读

请查收使用OpenAI的Whisper进行语音识别的攻略

Whisper是一种令人激动的新型语言模型，采用了全新的语音识别方法，即使是低质量的音频，Whisper也能产生高质量的结果，并且对各种声音和语言的适应性极强，无需进行微调。 Whisper是开源的，有一系列可用的模型尺寸，可以作为众多语音转文字应用的有...

AIGC 2024-01-16 人工智能

1423阅读

Stable Diffusion VAE：改善图像质量的原理、选型与使用指南

VAE Stable Diffusion（稳定扩散）是一种用于生成模型的算法，结合了变分自编码器（Variational Autoencoder，VAE）和扩散生成网络（Diffusion Generative Network）的思想。它通过对变分自编码器...

大数据 2024-01-16 人工智能

1506阅读

扩散模型图像理解力刷新SOTA！字节复旦团队提出全新「元提示」策略

Text-to-image（T2I）扩散模型在生成高清晰度图像方面显示出了卓越的能力，这一成就得益于其在大规模图像-文本对上的预训练。这引发了一个自然的问题：扩散模型是否可以用于解决视觉感知任务？近期，来自字节跳动和复旦大学的技术团队提出了一种简单...

生成式AI 2024-01-16 人工智能

830阅读

Stable diffusion 简介

Stable diffusion 是 CompVis、Stability AI、LAION、Runway 等公司研发的一个文生图模型，将 AI 图像生成提高到了全新高度，其效果和影响不亚于 Open AI 发布 ChatGPT。Stable diffusi...

生成式AI 2024-01-16 人工智能

2369阅读

【生成模型】Stable Diffusion原理+代码

文章目录前言一、Latent space 二、AutoEncoder 和 VAE 1.AutoEncoder: 2.VAE：三、Diffusion扩散模型 1.前向过程 2.逆向过程四、多模态 cross attention 五...

生成式AI 2024-01-16 人工智能

1586阅读

OpenAI开源全新解码器和语音识别模型Whisper-v3

在11月7日OpenAI的首届开发者大会上，除了推出一系列重磅产品之外，还开源了两款产品，全新解码器Consistency Decoder（一致性解码器）和最新语音识别模型Whisper v3。据悉，Consistency Decoder可以替代Sta...

人工智能 2024-01-16 人工智能

1345阅读

Stable Diffusion五问

一，什么是Stable diffusion？ Stable Diffusion" 是一种基于扩散模型的深度学习框架，用于生成高质量的图像。它是一种生成模型，通过模拟物理扩散过程，从随机噪声中逐步生成详细和结构化的图像。Stable Diffusion因其...

AIGC 2024-01-16 人工智能

966阅读

碎片笔记｜AIGC核心技术综述

前言：AIGC全称为AI-Generated Content，直译为人工智能内容生成。即采用人工智能技术来自动生产内容。AIGC在2022年的爆发，主要是得益于深度学习模型方面的技术创新。不断涌现的生成算法、预训练模型以及多模态等技术的融合引发了AIGC的...

人工智能 2024-01-16 人工智能

1296阅读

OpenAI Whisper论文笔记

OpenAI Whisper论文笔记 OpenAI 收集了 68 万小时的有标签的语音数据，通过多任务、多语言的方式训练了一个 seq2seq （语音到文本）的 Transformer 模型，自动语音识别（ASR）能力达到商用水准。本文为李沐老师论文精...

人工智能 2024-01-15 人工智能

954阅读

GPT-5前瞻！GPT-5将具备哪些新能力？

Sam Altman在整个AI领域，乃至整个科技领域都被看作是极具影响力的存在，而2023年OpenAI无限反转的宫斗事件更是让Sam Altman刷足了存在感，他甚至被《时代》杂志评为“2023年度CEO”。也正因此， Sam Altman的一条推文，...

大数据 2024-01-15 人工智能

986阅读

WAIC2023| AIGC究竟在向善还是向恶而行？

目录一、常见图像篡改技术二、传统篡改图像检测方法 2.1、基于光源和噪声的拼接图像篡改检测方法 2.2、基于马尔科夫特征的检测方法三、基于深度学习的图像篡改检测方法 3.1、基于Fisher编码和SVM模型的方法 3.2、基于...

AIGC 2024-01-15 人工智能

1000阅读

AI图像着色工具DDColor 上色效果高度真实

DDColor是一款照片级、真实感的图像着色工具，采用了双解码器技术，能够同时考虑色彩分布和像素级详细信息，实现高度真实的图像上色效果。它不仅能给历史黑白照片上色，还能对动漫或游戏中的风景进行真实风格的上色，并将动画场景转化为现实生活风格。项目地址:...

AIGC 2024-01-15 人工智能

843阅读

【Stable Diffusion】什么是VAE

1.基本概念 VAE是Variational Autoencoder的缩写，中文名变分自编码器，是一种基于深度学习的生成模型。VAE的基本思想是将输入数据编码为潜在空间中的概率分布，并通过解码器将潜在空间中的随机向量映射回原始数据空间中。VAE的训练过程包...

人工智能 2024-01-15 人工智能

1165阅读

Mistral AI推出Mixtral 8x7B：一种改变机器学习的SMoE语言模型效果堪比GPT-3.5

## 划重点: 1. ? **创新模型介绍:** Mistral AI 的研究团队推出了基于 Sparse Mixture of Experts（SMoE）模型的 Mixtral8x7B 语言模型，采用开放权重。 2. ? **性能突出:** Mixtra...

人工智能 2024-01-15 人工智能

1042阅读

RoboFusion：通过SAM实现稳健的多模态3D检测

本文经自动驾驶之心公众号授权转载，转载请联系出处。论文链接：https://arxiv.org/pdf/2401.03907.pdf 多模态3D检测器致力于探索安全可靠的自动驾驶感知系统。然而，尽管在干净的基准数据集上实现了最先进的（SOTA）性能，...

大数据 2024-01-15 人工智能

947阅读

拆掉英伟达护城河，细节曝光！世界最快超算用3072块AMD GPU训完超万亿参数LLM

用AMD的软硬件系统也能训练GPT-3.5级别的大模型了。位于美国橡树岭国家实验室（Oak Ridge National Laboratory）的全世界最大的超算Frontier，集合了37888个MI250X GPU和9472个Epyc 7A53 C...

大数据 2024-01-15 人工智能

850阅读

LLaMA开源大模型源码分析！

Datawhale干货作者：宋志学，Datawhale成员花了一晚上照着transformers仓库的LLaMA源码，把张量并行和梯度保存的代码删掉，只留下模型基础结构，梳理了一遍LLaMA的模型结构。今年四月份的时候，我第一次...

生成式AI 2024-01-15 人工智能

1240阅读

【计算机视觉 | 目标检测】术语理解9：AIGC的理解，对比学习，解码器，Mask解码器，耦合蒸馏，半耦合，图像编码器和组合解码器的耦合优化

文章目录一、AIGC的理解二、对比学习三、解码器四、Mask解码器五、耦合蒸馏六、半耦合七、图像编码器和组合解码器的耦合优化一、AIGC的理解 AIGC指的是使用人工智能技术自动生成的各类数字内容,包括文本、图像、...

AIGC 2024-01-14 人工智能

905阅读

Stable Diffusion的入门介绍和使用教程

Stable Diffusion是一个文本到图像的潜在扩散模型，由CompVis、Stability AI和LAION的研究人员和工程师创建。它使用来自LAION-5B数据库子集的512x512图像进行训练。使用这个模型，可以生成包括人脸在内的任何图...

AIGC 2024-01-14 人工智能

1069阅读

Stable Diffusion-生式AI的新范式

! 扩散模型（Stable Diffusion 现在是生成图像的首选模型。由于扩散模型允许我们以提示( prompts 为条件生成图像，我们可以生成我们所选择的图像。在这些文本条件的扩散模型中，稳定扩散模型由于其开源性而最为著名。在这篇文章中，我们将...

人工智能 2024-01-14 人工智能

924阅读

OpenAI的人工智能语音识别模型Whisper详解及使用

1 whisper介绍拥有ChatGPT语言模型的OpenAI公司，开源了 Whisper 自动语音识别系统，OpenAI 强调 Whisper 的语音识别能力已达到人类水准。 Whisper是一个通用的语音识别模型，...

生成式AI 2024-01-14 人工智能

3381阅读

视觉高精地图构建的全面回顾！一起看看无图感知都有哪些落地方案（清华&滴滴）

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解近年来，自动驾驶受到越来越多的关注，高精地图成为自动驾驶技术的关键组成部分。这些地图提供了道路网络的复杂细节，并作为车辆定位、导航和决策等关键任务的基本输入。鉴于视觉...

生成式AI 2024-01-14 人工智能

1334阅读

大模型相关技术综述

多模态大模型&大模型训练语料持续迭代已经开始整理多模态-视觉部分：主要分为一下几块多模态信息压缩模型（clip、vit、swiT）生成模型（vae、gan、flow、ddpm、sde... 其它多模态大模型（语音...

AIGC 2024-01-14 人工智能

1140阅读

【AI绘画 | draft意间】国产draft推荐及AI绘画背后的原理解读

写在前面：学习人工智能？来我们的床长人工智能教程网站！全面的课程，适合任何想学习的人。基础知识到高级应用，我们都有。职场人士、学生或爱好者，都能快速提升技能水平。赶快来尝试吧！个人名片： ?作者简介：一名大二在校生，喜欢编程?...

生成式AI 2024-01-13 人工智能

1150阅读

Stable Diffusion架构的3D分子生成模型 GeoLDM - 测评与代码解析

之前，向大家介绍过3D分子生成模型 GeoLDM。 GeoLDM按照Stable Diffusion架构，将3D分子生成的扩散过程运行在隐空间内，优化了基于扩散模型的分子生成。可能是打开Drug-AIGC的关键之作。让精确控制分子生成有了希望。...

大数据 2024-01-13 人工智能

1341阅读

简单易懂Stable Diffusion运行原理都直接喂到你嘴里了还不快点接着

**Stable Diffusion无疑是最近最火的AI绘画工具之一，所以本期给大家带来了全新Stable Diffusion 保姆级教程资料包（文末可获取）一背景介绍 AI 绘画作为 AIGC（人工智能创作内容）的一个应用方向，它绝对是 2022 年以...

AIGC 2024-01-09 人工智能

1316阅读

AIGC在趣丸科技广告素材场景下赋能业务的探索实践

AIGC 兴起，在各行各业得到应用。广告作为用户增长的有效手段，经久不衰，日益增长的广告创意素材素材需求与设计师人工制作素材产能不足的矛盾问题凸显，AIGC 技术的应用能够在多模态素材上发挥作用，为广告投放业务赋能。趣丸科技资深研发工程师阮陈贵 ...

人工智能 2024-01-08 人工智能

1427阅读

Stable Diffusion 文生图技术原理

图像生成模型简介图片生成领域来说，有四大主流生成模型：生成对抗模型（GAN）、变分自动编码器（VAE）、流模型（Flow based Model）、扩散模型（Diffusion Model）。从2022年开始，主要爆火的图片生成模型是Diffusi...

人工智能 2024-01-08 人工智能

1962阅读

AIGC之文本内容生成概述（下）——Transformer

在上一篇文章中，我们一口气介绍了LSTM、Word2Vec、GloVe、ELMo等四种模型的技术发展，以及每种模型的优缺点与应用场景，全文超过一万字，显得冗长且繁杂，在下文部分我们将分开介绍Transformer、BERT、GPT1/GPT2/GPT3/C...

生成式AI 2024-01-08 人工智能

1036阅读

学习实践-Whisper语音识别模型实战（部署+运行）

1、Whisper内容简单介绍 OpenAI的语音识别模型Whisper，Whisper 是一个自动语音识别（ASR，Automatic Speech Recognition）系统，OpenAI 通过从网络上收集了 68 万小时的多语言（98 种语言）...

生成式AI 2024-01-08 人工智能

1117阅读

在灾难推文分析场景上比较用 LoRA 微调 Roberta、Llama 2 和 Mistral 的过程及表现

引言自然语言处理 (NLP 领域的进展日新月异，你方唱罢我登场。因此，在实际场景中，针对特定的任务，我们经常需要对不同的语言模型进行比较，以寻找最适合的模型。本文主要比较 3 个模型: RoBERTa、Mistral-7B 及 Llama-2...

人工智能 2024-01-08 人工智能

1105阅读

Stable Diffusion 超详细讲解

Stable Diffusion 超详细讲解这篇文章是《Stable Diffusion原理详解》的后续，在《Stable Diffusion原理详解》中我更多的是以全局视角讲解了 Stable Diffusion 的原理和工作流程，并未深入步骤细...

人工智能 2024-01-08 人工智能

1110阅读