-
【扩散模型(八)】Stable Diffusion 3 diffusers 源码详解2 - DiT 与 MMDiT 相关代码(下)
系列文章目录 【扩散模型(一)】中介绍了 Stable Diffusion 可以被理解为重建分支(reconstruction branch)和条件分支(condition branch) 【扩散模型(二)】IP-Adapter 从条件分支的视角,快...
-
在AutoDL平台上运行Meta-Llama-3-8B-Instruct模型
一、背景介绍 1. AutoDL平台(AutoDL算力云 | 弹性、好用、省钱。租GPU就上AutoDL):算力平台,类似阿里云,它主要提供GPU算力。通常按小时收费,显卡(RTX 3090 - 24GB显存)+ CPU(14核)+ 内存(45GB)的配...
-
rk3588使用npu加速运行whisper语音识别模型
rk3588运行whisper模型有三种方法:1.使用纯cpu运行原始pytorch模型;2.将whisper模型转成onnx格式,再转成rknn格式使用npu运行;3.利用npu提供的矩阵运算功能,结合cpu一起运行原始pytorch模型。方法1做不到实...
-
本地搭建 Whisper 语音识别模型实现实时语音识别研究
目录 摘要 关键词 1. 引言 2. Whisper 模型简介 3. 环境准备 4. 系统架构与实现 4.1 模型加载 4.2 实时音频输入处理 4.3 实时转录处理 4.4 程序实现的框架 4.5 代码实现 5. 实验与结果 6...
-
搜索与下载Stable Diffusion 模型
我只是一个刚开始学习SD没多久小白,拿到别人的工作流想要运行时,很多时候还要下载对应的模型才能正常运行,虽然也可以通过comfyui-manager下载,不过有时候好像会下载失败,而单独下载所需模型,我自己试过,还是感觉科学上网后从https://civi...
-
Llama开源代码详细解读(2)
FlashAttention if is_flash_attn_available( : # 检查flashattention的可用性 from flash_attn import flash_attn_func, flash_attn_var...
-
如何系统学习AIGC(人工智能生成内容):适合普通人的入门指南
随着人工智能技术的迅猛发展,AIGC(人工智能生成内容)已成为一大热点。对于非软件技术专业的普通人来说,如何系统地学习AIGC,了解底层知识结构、掌握常见工具用法,是一个非常实际的问题。本文将为大家推荐一些优质的中文学习资料和方法,帮助大家更好地入门AIG...
-
9、LLaMA-Factory项目微调介绍
1、LLaMA Factory 介绍 LLaMA Factory是一个在GitHub上开源的项目,该项目给自身的定位是:提供一个易于使用的大语言模型(LLM)微调框架,支持LLaMA、Baichuan、Qwen、ChatGLM等架构的大模型。更细致...
-
分享一个AI开发者的强力助手:openMind Library
在人工智能的浪潮中,深度学习开发套件 openMind Library,以其强大的功能和易用性,逐步成为AI开发者们的强力助手。本文将通过魔乐社区近期关注挺高的大模型平台魔乐社区,深入了解openMind Library。 openMind Librar...
-
24最新Stable Diffusion 本地部署,超详细教程(手动+自动+整合包三种方式)总有一种适合你!
前言 一、 Stable Diffusion简介 2022年作为AIGC(Artificial Intelligence Generated Content)时代的元年,各个领域的AIGC技术都有一个迅猛的发展,给工业界、学术界、投资界甚至...
-
Unsloth微调环境搭建与LLaMA 3.1-8B模型微调实践指南
本文将详细介绍如何使用Unsloth框架进行LLaMA 3.1-8B模型的微调,帮助您快速构建微调环境,并了解微调流程的基本步骤。本教程适合初学者,旨在帮助您在短时间内实现自己的专属模型微调。对于更复杂的微调参数和细节设置,将在后续文章中进一步阐述。 文...
-
欺诈文本分类检测(十一):LLamaFactory多卡微调
1. 引言 前文训练时都做了一定的编码工作,其实有一些框架可以支持我们零代码微调,LLama-Factory就是其中一个。这是一个专门针对大语言模型的微调和训练平台,有如下特性: 支持常见的模型种类:LLaMA、Mixtral-MoE、Qwen、B...
-
记一次:Datawhale AI夏令营-第四期-魔搭-AIGC-Task02
前言:上一篇我们按步骤跑了一遍Baseline也生成了8张故事图片,但是原理啥的都是一头雾水,因为是初学者,所以只能一点点的分析来理解消化。这篇咱们就深入的来了解一下相关的内容。根据内容自己总结理解和查询相关的一些资料。不正确的地方提出来我修改一下。 学...
-
【Datawhale X 魔搭 AI夏令营】AIGC方向——Task02笔记GC
Task02 AI生图技术 为什么要了解AI生图前沿? AI生图的历史 AI生图的难点和挑战有哪些? 精读baseline代码(上次运行的) 再次生成图片 AI生图技术 为什么要了解AI生图前沿? AIGC(AI-Gene...
-
24年保姆级教程!关于Stable diffusion的各种模型,看这篇就可以了!
前言 在第一次接触SD的时候,我就被里面的模型搞到头大,不仅有多种模型后缀,模型之间也有很多种类型,如果是新手小白的话,在这一步就很容易被搞晕。而在本期文章,技术巫帮你系统梳理了SD的模型,相信不管是对于小白还是老手,都会有一定帮助! 一、从模型后...
-
Datawhale X 魔搭 AI夏令营‣AIGC文生图方向-Task2笔记
目录 一、用AI的prompts进行AI文生图 ‣通义千问 ‣跑baseline ‣结果展示: ‣另,prompts风格补充: 三、精读baseline ‣原始代码详情 ‣分析代码的主题架构 & 分析代码的主题...
-
ComfyUI - 在服务器中部署 AIGC 绘画的 ComfyUI 工具 教程
欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/141140498 免责声明:本文来源于个人知识与公开资料,仅用于学术交...
-
最新口型同步技术EchoMimic部署
EchoMimic是由蚂蚁集团推出的一个 AI 驱动的口型同步技术项目,能够通过人像面部特征和音频来帮助人物“对口型”,生成逼真的动态肖像视频。 EchoMimic的技术亮点在于其创新的动画生成方法,它不仅能够通过音频和面部关键点单独驱动图像动画,还能结...
-
lit-llama代码解析
https://github.com/Lightning-AI/lit-llama/blob/main/README.md 下载的时候会报错误,因为网不行,一种方法就是多次尝试,另一种方法是终端连上代理下载 pycharm连接hugging fac...
-
【Datawhale X 魔搭 AI夏令营】第四期 AIGC方向 学习笔记
零基础30分钟速通文生图 一、开通阿里云PAI-DSW试用 1、开通阿里云免费试用 链接:https://free.aliyun.com/?productCode=learn 2、在魔搭社区进行授权 链接:https://www.models...
-
AIGC笔记--基于PEFT库使用LoRA
1--相关讲解 LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS LoRA 在 Stable Diffusion 中的三种应用:原理讲解与代码示例 PEFT-LoRA 2--基本原理...
-
Llama 3.1 92页技术报告详细解读
引言 半个月前,Meta发布了他们的开源大模型Llama3.1,在社区中引起广泛关注和讨论。现在几周的时间过去了,热度逐渐退潮,舆论逐渐降温,整个Llama3家族的技术报告也公开出来。报告数据更新到了Llama 3.1,正是理性地来审视一下这款大模型...
-
混合专家模型(MoE)入门
模型规模是提升LLM大语言模型性能的关键因素,但也会增加计算成本。Mixture of Experts (MoE 架构通过分布式专家层和动态门控机制,有效降低了计算资源,使模型能够在扩展参数规模的同时保持高效的运行。 Mixtral of Exper...
-
浅谈AIGC的底层技术
人工智能生成内容(Artificial Intelligence Generated Content, 简称AIGC)是近年来AI技术发展的一个重要领域,它利用机器学习和自然语言处理等技术,让计算机能够自主创作文章、音乐、图像等多种类型的内容。本文将深入浅...
-
Datawhale X 魔搭 AI夏令营AIGC方向task2
第一步:安装 安装 Data-Juicer 和 DiffSynth-Studio !pip install simple-aesthetics-predictor !pip install -v -e data-juicer !pip unins...
-
ootdiffusion_pytorch AIGC虚拟衣物试穿算法模型
OOTDiffusion 论文 OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable Virtual Try-on https://arxiv.org/pdf/...
-
使用OpenAI Whisper的说话人识别管道
使用OpenAI Whisper的说话人识别管道 whisper-diarizationAutomatic Speech Recognition with Speaker Diarization based on OpenAI Whisper项目地址:...
-
AIGC初体验 Datawhale X 魔搭夏令营
跟DataWhale的步骤跑通baseline 环境安装 !pip install simple-aesthetics-predictor !pip install -v -e data-juicer !pip uninstall pytorch...
-
猫头虎 Gemma和Gemini模型的区别是什么?
猫头虎 ? Gemma和Gemini模型的区别是什么? 摘要? 在这篇文章中,我们将深入探讨Gemma和Gemini这两个由Google开发的AI模型。我们会对比它们的参数规模、计算资源需求和集成难度,帮助大家了解这两者之间的主要区别。无论你是AI...
-
CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:实时4K分辨率4D视图合成
文章链接:https://arxiv.org/pdf/2310.11448 git链接: https://zju3dv.github.io/4k4d/ 本文旨在实现动态3D场景在4K分辨率下的高保真和实时视图合成。最近,一些动态视图合成方法在渲染质量方面...
-
【实战】Llama3.1-部署与使用
大模型(LLM)狭义上指基于深度学习算法进行训练的自然语言处理(NLP)模型,主要应用于自然语言理解和生成等领域,广义上还包括机器视觉(CV)大模型、多模态大模型和科学计算大模型等。 百模大战正值火热,开源 LLM 层出不穷。如今国内外已经涌现了众多优秀...
-
Datewhale AI夏令营第四期 AIGC方向Task1笔记
①文生图基基础知识: ✔提示词:主体描述,细节描述,修饰词,艺术风格,艺术家 ✔Lora模型:实现对特定主题、风格或任务的精细化控制 ✔ComfyUI:模型微调、数据预处理、图像生成 ✔参考图控制:openp...
-
WhisperX
文章目录 一、关于 WhisperX 新闻 ? 二、设置⚙️ 1、创建Python3.10环境 2、安装PyTorch,例如Linux和Windows CUDA11.8: 3、安装此repo 4、Speaker Diarization 三、...
-
服务器部署llama3 并利用LLaMA-Factory实现微调
llama3的编译环境要求: 需要的软件,硬件资源: python=3.11 pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.2 第一步下载需要的pytho...
-
DataWhaleX魔搭夏令营第四期AIGC方向task01笔记
从零入门AI生图原理&实践是Datawhale AI 夏令营(第四期)“AIGC”方向的学习活动,基于魔搭社区“可图Kolors-LoRA风格故事挑战赛”开展的实践学习。 在task01中,我们主要在魔搭社区搭建PAI实例并体验一下baselin...
-
如何本地搭建Whisper语音识别模型
如何本地搭建Whisper语音识别模型 如何本地搭建Whisper语音识别模型 1. 引言 Whisper模型简介 本地搭建的意义和应用场景 应用场景包括但不限于: 2. 环境准备 系统要求 Python环境安装 依赖库安装 3. 安...
-
Stable Diffusion的微调方法原理总结
目录 1、Textural Inversion(简易) 2、DreamBooth(完整) 3、LoRA(灵巧) 4、ControlNet(彻底) 5、其他 1、Textural Inversion(简易) 不改变网络结构...
-
Datawhale AI夏令营第四期AIGC-3进阶上分-实战优化
Task3学习链接 Datawhale (linklearner.com 1. ComfyUI的安装与使用 ComfyUI 是GUI"Graphical User Interface"(图形用户界面)的一种,是基于节点工作的用户界面,主要用于操作图...
-
AIGC——微调技术(Datawhale X 魔搭 Al夏令营)
微调(Fine-tuning)是一种在深度学习和机器学习领域中常用的技术,旨在通过调整预训练模型的参数来使其更好地适应特定任务。其基本原理和参数的理解对于实现更好的效果至关重要。 前言 了解微调的基本原理,对微调的各种参数有一个更加清楚的了解,...
-
【AIGC】训练数据入库(Milvus)
之前的文章有写如何获取数据、如何补充数据,也有说如何对数据进行清洗、如何使用结构化数据进行训练。但好像没有说如何将训练数据“入库”。这里说的入库不是指 MySQL 数据库,而是指向量检索库 Milvus。 众所周知,人工智能多用向量数据进行训练。数据先做...
-
Stable Diffusion 开源项目教程
Stable Diffusion 开源项目教程 stablediffusionHigh-Resolution Image Synthesis with Latent Diffusion Models项目地址:https://gitcode.com/gh...
-
llama.cpp使用
llama.cpp的github库地址为ggerganov/llama.cpp: LLM inference in C/C++ (github.com ,具体使用以官方说明为准。 简介 llama.cpp目标是在本地和云端的各种硬件上以最小的设置和最...
-
ComfyUI基础篇:Windows系统安装ComfyUI方法
ComfyUI作为一款功能强大的AI生图工具,它通过节点方式,使用户可以直观地看到各个模块的功能,并根据需求进行调整和连接。这种方法使工作流程更加清晰,同时降低了使用门槛,使得不熟悉代码的用户也能轻松使用。本文记录ComfyUI在Windows的安装方法。...
-
Datawhale X 魔搭 AI夏令营 - AIGC文生图方向Task2笔记
今天做的是AIGC文生图方向的 task 2 ,回顾一下 task 2 step 0 : Task 2 学习规划 step 1 : 认识通义千问 (使用通义千问大语言模型学习如何借助AI智能助手帮我们阅读代码) 链接:点击直达 1...
-
Datawhale X 魔搭 AI夏令营 Task1
Datawhale X 魔搭 AI夏令营 Task1 赛事解读 AI文生图相关概念 可图模型及微调简介 魔搭零代码生图、微调工具介绍 魔搭AI生图相关应用介绍 DataWhale开源组织网站主页:Datawhale DataWhaleAI夏令营第...
-
whisper安装
安装Whisper 首先需要下载ffmpeg并添加环境变量。打开网站:https://github.com/BtbN/FFmpeg-Builds/releases,选择压缩包并下载到本地。 解压后,找到bin文件夹下的“ffmpeg.exe”,将它复...
-
Datawhale X 魔搭 AI夏令营-AIGC Task 02 精读代码,实战进阶 --笔记
前言 Task 01 通过预训练模型的调用,在baseline上跑通模型,实现内容→图片。即,根据prompt中输入的文本描述,模型生成对应的图片。Task 02 深入学习。 目录 一、AI生图技术 1.1 基础点 1.2 技术难点 1.3...
-
4060显卡+LLaMA-Factory微调LLM环境准备——(一)安装cuda
本地配置 系统:win10**硬件:**i5-12490f+RTX4060 安装原因: 最近尝试在本地对开源LLM进行Fine-tune的时候,用到了LLaMA-Factory,在运行的时候,弹出未检测到GPU,后来才发现,是忘记安装cuda等...
-
Datawhale X 魔搭 AI夏令营 AIGC人物风格赛
工具初探一ComfyUI应用场景探索 什么是ComfyUI GUI 是 "Graphical User Interface"(图形用户界面)的缩写。简单来说,GUI 就是你在电脑屏幕上看到的那种有图标、按钮和菜单的交互方式。 ComfyUI 是GU...
-
Datawhale AI夏令营第四期 AIGC方向 task02学习笔记
探探前沿:了解一下 AI生图技术 的能力&局限 今天我们的任务是对baseline的代码有一个更加细致的理解,然后我们会学习如何借助AI来提升我们的自学习能力,从而帮助大家在后面的学习工作中如何从容迎接各种挑战。授人以鱼不如授人以渔,你可以...