-
本地搭建 Whisper 语音识别模型
Whisper 是由 OpenAI 开发的一款强大的语音识别模型,具有出色的多语言处理能力。搭建和使用 Whisper 模型可以帮助您将音频内容转换为文本,这在语音转写、语音助手、字幕生成等应用中都具有广泛的用途。本指南将对如何在本地环境中搭建 Whisp...
-
在 windows 上部署使用 Whisper 教程
在 Windows 上部署 OpenAI Whisper:详细教程 OpenAI Whisper 是一个功能强大的多语言语音识别模型,能够处理多种音频格式并生成高质量的字幕文件。本文将详细介绍如何在 Windows 系统上部署 Whisper,利用 G...
-
【AI绘画】ComfyUI入门教程:环境搭建、界面汉化、基础操作
本文主要介绍了通过源码运行comfyui,默认例子介绍,节点管理器的使用,以及界面汉化。可多参考开源工作流,多加实践,从而掌握comfyui操作。 1.源码运行comfyui 执行命令python main.py如下: 安装numpy 1.x最...
-
PyTorch-LLaMA 项目使用教程
PyTorch-LLaMA 项目使用教程 pytorch-llama LLaMA 2 implemented from scratch in PyTorch 项目地址: https://gitcode.com/gh_mirrors/py/pyt...
-
Datawhale X 魔塔 AI夏令营 AIGC方向Task2
小白学习笔记,如有错误请各位大佬指正 一、AI生图背景介绍 1.AICG领域介绍 AIGC(Artificial Intelligence Generated Content)领域涉及使用人工智能技术生成各种类型的内容,包括文本、图像、...
-
本地搭建 Whisper 语音识别模型实现实时语音识别研究
目录 摘要 关键词 1. 引言 2. Whisper 模型简介 3. 环境准备 4. 系统架构与实现 4.1 模型加载 4.2 实时音频输入处理 4.3 实时转录处理 4.4 程序实现的框架 4.5 代码实现 5. 实验与结果 6...
-
基于whisper流式语音识别
为了实现持续监听麦克风并在检测到声音时进行转录,我们可以将流的监听时间设置为无限长。通过使用一个音量门限来检测是否有声音,然后进行转录。 安装依赖 确保安装必要的库: pip install torch torchaudio openai-whis...
-
【AIGC】因果注意力(Causal Attention)原理及其代码实现
概述 因果注意力(Causal Attention)是一种自注意力机制,广泛应用于自回归模型中,尤其是在自然语言处理和时间序列预测等任务中。它的核心思想是在生成每个时间步的输出时,只关注当前时间步及之前的时间步,确保生成过程的因果性,从而避免模型在预测...
-
【Datawhale X 魔搭 AI夏令营】AIGC方向——Task02笔记GC
Task02 AI生图技术 为什么要了解AI生图前沿? AI生图的历史 AI生图的难点和挑战有哪些? 精读baseline代码(上次运行的) 再次生成图片 AI生图技术 为什么要了解AI生图前沿? AIGC(AI-Gene...
-
Datawhale X 魔搭 AI夏令营‣AIGC文生图方向-Task2笔记
目录 一、用AI的prompts进行AI文生图 ‣通义千问 ‣跑baseline ‣结果展示: ‣另,prompts风格补充: 三、精读baseline ‣原始代码详情 ‣分析代码的主题架构 & 分析代码的主题...
-
ComfyUI - 在服务器中部署 AIGC 绘画的 ComfyUI 工具 教程
欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/141140498 免责声明:本文来源于个人知识与公开资料,仅用于学术交...
-
【Datawhale X 魔搭 AI夏令营】第四期 AIGC方向 学习笔记
零基础30分钟速通文生图 一、开通阿里云PAI-DSW试用 1、开通阿里云免费试用 链接:https://free.aliyun.com/?productCode=learn 2、在魔搭社区进行授权 链接:https://www.models...
-
从【人工智能】到【计算机视觉】,【深度学习】引领的未来科技创新与变革
前几天偶然发现了一个超棒的人工智能学习网站,内容通俗易懂,讲解风趣幽默,简直让人欲罢不能。忍不住分享给大家,点击这里立刻跳转,开启你的AI学习之旅吧! 前言 – 人工智能教程https://www.captainbed.cn/lzx 1. 引言...
-
AIGC入门(二)从零开始搭建Diffusion!(下)
上篇。https://blog.csdn.net/alxws/article/details/140058117?spm=1001.2014.3001.5502四、前向加噪过程(ForwardProcess.py) 当我们的去噪器设计完成后,接下来,就...
-
Stable-Diffusion1.5
SD1.5权重:https://huggingface.co/runwayml/stable-diffusion-v1-5/tree/main SDXL权重:https://huggingface.co/stabilityai/stable-diffus...
-
使用gradio部署微调后的模型
文章目录 概要 整体架构流程 技术细节 小结 概要 使用gradio部署微调后的模型 整体架构流程 gradio前期学习,以下是一些常见的输入输出组件,有些即可输入也可输出 gr.Audio(sources=['mi...
-
Datawhale AI夏令营第四期 魔搭-AIGC方向 task02 精读代码,实战进阶
今天我们的任务是对baseline的代码有一个更加细致的理解,然后我们会学习如何借助AI来提升我们的自学习能力,从而帮助大家在后面的学习工作中如何从容迎接各种挑战。授人以鱼不如授人以渔,你可以从中学大模型的提问技巧来实现快速学习,学会如何制作一个话剧连环画...
-
Datawhale X 魔搭 AI夏令营第四期 魔搭-AIGC方向 Task2:精读代码,实战进阶
Datawhale X 魔搭 AI夏令营第四期 魔搭-AIGC方向 Task2:精读代码,实战进阶 Part1:磨刀准备一一认识通义千问 会用ChatGpt就行 Part2:精读baseline——从零入门AI生图 1. 代码的主体架构...
-
Datawhale X 魔搭 AI夏令营-第四期 AIGC-Task 2
目录 认识AI助手——通义千问 操作指南 主要功能模块 精读baseline代码 分析代码的主体架构 逐行解释代码 其他疑问-向AI追问 进行实战——基于话剧的连环画制作 提示词准备 执行Task1的30分钟速通Baseline 修改...
-
Datawhale X 魔搭 AI夏令营第四期 AIGC方向 task02笔记
AI工具使用 1. baseline 代码 2. 使用通义千问理解代码 2.1 工作流程 2.2 逐行释意 3. 使用通义千问生成 Prompt 3.1 生成的 Prompt 3.1 根据 Prompt 生成的图片 1. b...
-
Datawhale Al夏令营 AIGC方向 task2
1、代码解读 1.1、安装 Data-Juicer 和 DiffSynth-Studio # 安装 Data-Juicer 和 DiffSynth-Studio !pip install simple-aesthetics-predictor # 安...
-
Datawhale 魔搭 AI夏令营 第四期 AIGC方向 Tesk2 可图Kolors-LoRA模型进阶学习
AI生图的能力与局限 AI生图的原理 AI利用 深度学习技术来训练神经网络,训练过程中,神经网络会学习到真实图像中的纹理、结构、颜色等特征,并将这些特征应用于生成新的图像。从而生成具有高保真度的图像。训练后,通过输入关键提示词来让模型...
-
Positional Encoding | 位置编码【详解】
文章目录 1、位置编码的2种方案 2、位置编码 3、公式详解 : 绝对位置 、 相对位置 4、代码 4.1 代码1 4.2 代码2 1、位置编码的2种方案 transformer的作者刚开始说固定的位置编码和可学习的位置...
-
Datawhale X 魔搭 AI夏令营-AIGC方向-task2知识总结
文生图背景 早期探索 (1960-1990) 最早出现于计算机视觉和图像处理。 早期图像生成技术主要依赖与规则和模板匹配,通过预定义的规则将文本转换为简单的图形。 受限于计算能力和算法,此阶段生成的图像质量较低,应用场景受限。 基于统计...
-
Lag-Llama 开源项目实战指南
Lag-Llama 开源项目实战指南 lag-llamaLag-Llama: Towards Foundation Models for Probabilistic Time Series Forecasting项目地址:https://gitcode...
-
基于飞桨框架的稀疏计算使用指南
本文作者-是 Yu 欸,华科在读博士生,定期记录并分享所学知识,博客关注者5w+。本文将详细介绍如何在 PaddlePaddle 中利用稀疏计算应用稀疏 ResNet,涵盖稀疏数据格式的础知识、如何创建和操作稀疏张量,以及如何开发和训练稀疏神经网络模型。...
-
AI绘画 | 只要10步让你在英特尔A770显卡下安装ComfyUI运行StableDiffusion3最新开源模型
安装所需文件和模型已经打包好了,提前下载。SD3模型有点大,10G左右 本教程安装所需文件:https://pan.quark.cn/s/d6b9c8d4ca27 SD3模型:https://pan.quark.cn/s/037ae37f1884 ...
-
Stable Diffusion 深入浅出,一看就会
Stable Diffusion 是一个基于深度学习的图像生成模型,旨在生成高质量的图像。下面是一个 Stable Diffusion 入门案例教程,旨在帮助您快速入门 Stable Diffusion。 安装 Stable Diffusion 首先,...
-
AIGC实战:LLaMA2打造中文写作利器——数据准备与模型训练全攻略
目录 一、下载并加载中文数据集 二、中文数据集处理 1、数据格式 2、数据集处理之tokenizer训练格式 1)先将一篇篇文本拼凑到一起(只是简单的拼凑一起,用于训练tokenizer) 2...
-
开源语音转文本 Speech-to-Text 大模型实战之Whisper篇
前言 随着深度学习技术的不断发展,语音转文本(Speech-to-Text,STT)技术取得了显著的进步。开源社区涌现了许多高效的STT大模型,为开发者提供了强大的工具。本文将以OpenAI推出的Whisper模型为例,详细介绍如何使用该模型进行语音转文...
-
深入探索:Stable Diffusion 与传统方法对比:优劣分析
深入探索:Stable Diffusion 与传统方法对比:优劣分析 一、引言 随着人工智能和深度学习的发展,优化算法在神经网络训练中的重要性日益凸显。传统的优化方法,如随机梯度下降(SGD)、动量法和Adam等,已广泛应用于各类深度学习任务。然而...
-
【AIGC】二、mac本地采用GPU启动keras运算
mac本地采用GPU启动keras运算 一、问题背景 二、技术背景 三、实验验证 本机配置 安装PlaidML 安装plaidml-keras 配置默认显卡 运行采用 CPU运算的代码 step1 先导入keras包,导入数据cifar...
-
基于MindSpore实现BERT对话情绪识别
本文分享自华为云社区《【昇思25天学习打卡营打卡指南-第二十四天】基于 MindSpore 实现 BERT 对话情绪识别》,作者:JeffDing。 模型简介 BERT全称是来自变换器的双向编码器表征量(Bidirectional Encoder...
-
搭建本地whisper语音识别
目录 代码仓库 编辑 选择模型 环境配置 语音识别测试 Whisper是一个通用的语音识别模型。它是在不同音频的大型数据集上训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。 代码仓库 GitHub - ope...
-
Python爬虫入门教程(非常详细)从零基础入门到精通,看完这一篇就够了
初学Python之爬虫的简单入门 一、什么是爬虫? 1.简单介绍爬虫 爬虫的全称为网络爬虫,简称爬虫,别名有网络机器人,网络蜘蛛等等。 网络爬虫是一种自动获取网页内容的程序,为搜索引擎提供了重要的数据支撑。搜索引擎通过网络爬虫技术,...
-
教你基于MindSpore用DCGAN生成漫画头像
本文分享自华为云社区《【昇思25天学习打卡营打卡指南-第二十天】DCGAN生成漫画头像》,作者:JeffDing。 DCGAN生成漫画头像 在下面的教程中,我们将通过示例代码说明DCGAN网络如何设置网络、优化器、如何计算损失函数以及如何初始化模型...
-
在本地部署 Stable Diffusion:详细教程
第一步:环境准备 1、安装 Python 和 Conda 确保您的计算机上已安装 Python 3.x 版本。 如果您使用 Conda 进行环境管理,请安装 Miniconda 或 Anaconda。 2、创建和激活虚拟环境 打开命令行终端,并执...
-
陶哲轩点破「天机」:不懂数学别想靠ChatGPT飞升!
【新智元导读】冲锋在AI辅助数学研究第一线的陶哲轩,近日又有「神总结」:ChatGPT提升的,是我们在编码、图表等次要任务上的能力;而真要搞好数学研究,基础不扎实的话,AI也是没用的。 使用ChatGPT一年半了,陶哲轩的感想如何? 最近,一直冲锋在探索A...
-
语音识别教程:Whisper
语音识别教程:Whisper 一、前言 最近看国外教学视频的需求,有些不是很适应,找了找AI字幕效果也不是很好,遂打算基于Whisper和GPT做一个AI字幕给自己。 二、具体步骤 1、安装FFmpeg Windows: 进入 ht...
-
Faster-whisper+silero-vad 实时语音转录
环境搭建 需要使用cuda 在 cmd 控制台里输入 nvidia-smi.exe 以查看显卡驱动版本和对应的 cuda 版本 前往 NVIDIA-CUDA 官网下载与系统对应的 Cuda 版本 以 Cuda-11.7 版本为例,根据自己的...
-
AIGC入门(一) 从零开始搭建Transformer!(上)
前言 我记得曾经看过一篇综述,综述里曾这样讲过: 多模态使用Transformer作为基石模型的一个原因之一,就是因为它能够很好地统一视觉(ViT、DiT)和文本,并且无限制地扩大其参数。这是一个在工程上很有作用也很有实际意义的事情。 笔者...
-
【Stable Diffusion本地部署简易教程】从入门到实践
Stable Diffusion 本地部署指南:简单易懂的图文教程 引言 Stable Diffusion是一种深度学习模型,用于生成高质量的图像。本地部署意味着你可以在自己的计算机上运行这个模型,从而无需依赖于在线服务。本教程将循序渐进地指导你如...
-
AIGC的图像生成技术【从卷积神经网络到风格迁移】
本文收录于专栏:精通AI实战千例专栏合集 https://blog.csdn.net/weixin_52908342/category_11863492.html 从基础到实践,深入学习。无论你是初学者还是经验丰富的老手,对于本专栏案例和项目实践...
-
Stable Diffusion Mjdjourney新手超详细安装教程,亲测有效
安装 Stable Diffusion 需要一定的技术基础和系统配置。以下是基本的安装方法,适用于 Windows 系统。 前提条件 兼容的 GPU:建议使用支持 CUDA 的 NVIDIA GPU。 Python 3.7+:确保已安装 Pytho...
-
AIGC工具使用心得:提升开发效率的利器
目录 AIGC工具使用心得:提升开发效率的利器 引言 AIGC工具是什么? AIGC工具的功能和优势 我的使用心得 结论 AIGC工具使用心得:提升开发效率的利器 引言 随着人工智能的不断发展,我们正在面对越来越多的复杂任务和数据。...
-
在Windows下搭建Stable Diffusion环境中途出错咋弄?
在Windows下搭建Stable Diffusion环境需要以下几个步骤: 安装Git和Anaconda 首先,确保你的计算机上已经安装了Git和Anaconda。如果没有安装,可以分别访问官方网站进行下载和安装: Git: https://git...
-
区分stable diffusion中的通道数与张量维度
区分stable diffusion中的通道数与张量形状 1.通道数: 1.1 channel = 3 1.2 channel = 4 2.张量形状 2.1 3D 张量 2.2 4D 张量 2.2.1 通常 2.2.2 stable d...
-
AIGC中的强化学习技术原理与应用
本文收录于专栏:精通AI实战千例专栏合集 https://blog.csdn.net/weixin_52908342/category_11863492.html 从基础到实践,深入学习。无论你是初学者还是经验丰富的老手,对于本专栏案例和项目实践...
-
详细解析AI作画原理及相关理论
先来欣赏AI作画 人物方面: 欣赏AI作画自然意境: 目录 引言 一、AI作画原理 二、相关理论 1. 风格迁移理论 2. 生成对抗网络(GAN) 三、代码示例 进一步的优化和改进可能包括: 总结: 引言...
-
LLama的激活函数SwiGLU 解释
目录 Swish激活函数 1. Swish函数公式 LLaMA模型中的激活函数 1. SwiGLU激活函数 2. SwiGLU激活函数的表达式 3. SwiGLU激活函数的优势 Swish激活函数 Swish是一种激活函数,其计算...