-
使用 Transformers 为多语种语音识别任务微调 Whisper 模型
本文提供了一个使用 Hugging Face 🤗 Transformers 在任意多语种语音识别 (ASR 数据集上微调 Whisper 的分步指南。同时,我们还深入解释了 Whisper 模型、Common Voice 数据集以及微调等理论知识,...
-
如何一键生成字幕,如何快速处理生肉资源?借助whisper语音识别系统生成.srt字幕文件 手把手教学在Windows、CPU版本下whisper的安装与使用,快速上手!
目录 一.前言 二.本机环境 三.安装步骤: 步骤1:下载Git并添加环境变量 步骤2:下载ffmpeg并添加环境变量 步骤3:安装pytorch 步骤4:安装whisper 四.whisper的应用 应用1:识别mp3歌曲中的歌词 应用...
-
Stable Diffusion AI绘画系列【24】:古代名家水墨画鉴赏
《博主简介》 小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~ 👍感谢小伙伴们点赞、关注! 《------往期经典推荐----...
-
语音识别whisper的介绍、安装、错误记录
介绍 Whisper是OpenAI于2022年9月份开源的通用的语音识别模型。它是在各种音频的大型数据集上训练的模型,也是一个可以执行多语言语音识别、语音翻译和语言识别的多任务模型。 论文链接:https://arxiv.org/abs/2212.04...
-
Stable Diffusion云服务器部署完整版教程
Stable Diffusion云服务器部署完整版教程 2023年07月04日 22:30 3607浏览 · 18喜欢 · 22评论...
-
Stable diffusion 简介
Stable diffusion 是 CompVis、Stability AI、LAION、Runway 等公司研发的一个文生图模型,将 AI 图像生成提高到了全新高度,其效果和影响不亚于 Open AI 发布 ChatGPT。Stable diffusi...
-
本地部署github上的stable diffuion,轻松玩转ai绘画(新手小白也能懂)
你也想自己生成上面这样好看的图片吗?废话不多说,跟着博主,按步骤来,做完你也就可以了,而且无任何限制,懂得都懂!😎 目录 第一步:准备VPN 第二步:安装Python 第三步:安装Pycharm 第四步:安装Git 第五步:注册GitHub账...
-
史上超全自动驾驶岗位介绍
本文经自动驾驶之心公众号授权转载,转载请联系出处。 1.背景 近日分享如何高新转型到自动驾驶领域时,几位朋友不约而同的问到了我同一个问题:“L2~L4自动驾驶的岗位都有哪些?对应着具体的什么 工作内容?需要哪方面的技能?”今天就针对这个大家都很想了解的...
-
使用OpenVINO™在算力魔方上加速stable diffusion模型
作者:武卓博士 英特尔AI布道师 刘力 英特尔物联网行业创新大使 什么是stable diffusion模型? Stable Diffusion是stability.ai开源的AI图像生成模型,实现输入文字,生成图像...
-
腾讯云GPU服务器部署Ai绘画Stable Diffusion 小白可用
一、服务器购买 本人本地是个win10的PC 安装了 显示GPU 算力不够,升级配置也需要钱 云服务商的选择上,很普通,大家随意选择腾讯云/阿里云/移动云/华为云…都可以。我是之前用的腾讯云,在腾讯云上抢的GPU云服务器(https://cloud...
-
Stable Diffusion 硬核生存指南:WebUI 中的 GFPGAN
本篇文章聊聊 Stable Diffusion WebUI 中的核心组件,强壮的人脸图像面部画面修复模型 GFPGAN 相关的事情。 写在前面 本篇文章的主角是开源项目 TencentARC/GFPGAN,和上一篇文章《Stable Diffusio...
-
大模型部署手记(13)LLaMa2+Chinese-LLaMA-Plus-2-7B+Windows+LangChain+摘要问答
1.简介: 组织机构:Meta(Facebook) 代码仓:GitHub - facebookresearch/llama: Inference code for LLaMA models 模型:chinese-alpaca-2-7b-hf、text...
-
美国科技5巨头,研发狂烧2020亿刀!亚马逊732亿全球第一,Meta 30%占比最高
最近,一张2022年纳斯达克Top 10企业的研发支出图,突然火了。 可以看到,亚马逊遥遥领先,以732亿美元取得榜首。 谷歌母公司Alphabet以395亿美元紧随其后。 研发经费全球第三是Meta,全年为353亿美元。 第四是苹果,全年研发支出27...
-
拆掉英伟达护城河,细节曝光!世界最快超算用3072块AMD GPU训完超万亿参数LLM
用AMD的软硬件系统也能训练GPT-3.5级别的大模型了。 位于美国橡树岭国家实验室(Oak Ridge National Laboratory)的全世界最大的超算Frontier,集合了37888个MI250X GPU和9472个Epyc 7A53 C...
-
Stable Diffusion WebUI 集成 LoRA模型,给自己做一张壁纸 Ubuntu22.04 rtx2060 6G
LoRA概念 LoRA的全称是LoRA: Low-Rank Adaptation of Large Language Models,可以理解为stable diffusion(SD 模型的一种插件,和hyper-network,controlNet一样,...
-
【AIGC】大模型协作系统 HuggingGPT 深度解析
欢迎关注【youcans的 AIGC 学习笔记】原创作品 【AIGC】大模型协作系统 HuggingGPT 深度解析 1. 摘要 2. 前言 3. HugginGPT 大模型协作系统 3.1 任务规划 3.2 模型选择 3.3 任务执行...
-
Stable Diffusion AI绘画系列【19】:呆萌可爱的12生肖风【Q版,3D】
《博主简介》 小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~ 👍感谢小伙伴们点赞、关注! 《------往期经典推荐----...
-
LLMs之LLaMA-2:LLaMA-2的简介(技术细节)、安装、使用方法(开源-免费用于研究和商业用途)之详细攻略
LLMs之LLaMA-2:LLaMA-2的简介(技术细节 、安装、使用方法(开源-免费用于研究和商业用途 之详细攻略 导读:2023年7月18日,Meta重磅发布Llama 2!这是一组预训练和微调的大型语言模型(LLM),规模从70亿到700亿个...
-
Stable Diffusion-生式AI的新范式
! 扩散模型(Stable Diffusion 现在是生成图像的首选模型。由于扩散模型允许我们以提示( prompts 为条件生成图像,我们可以生成我们所选择的图像。在这些文本条件的扩散模型中,稳定扩散模型由于其开源性而最为著名。 在这篇文章中,我们将...
-
stable diffusion本地原生windows安装记录
目录 前言 文档说明 Python安装 3.1python下载 3.2安装过程 3.3验证安装结果 Git安装 4.1git的下载 4.2git的安装 4.3git的使用 4.4第二种下载方式 4.5下载的注意事项 启动stabl...
-
【AI绘画】本地部署Stable Diffusion Web UI
近几年AI发展迅猛,今年更是大爆发,除了爆火的大模型ChatGPT以外,AI绘画也有很大的进步,目前,Stable Diffusion图像生成效果相当惊人,可以生成逼真的人像、风景、物品图片,还可以将图片转换为不同风格。Stable Diffusion W...
-
Stable Diffusion架构的3D分子生成模型 GeoLDM - 测评与代码解析
之前,向大家介绍过3D分子生成模型 GeoLDM。 GeoLDM按照Stable Diffusion架构,将3D分子生成的扩散过程运行在隐空间内,优化了基于扩散模型的分子生成。可能是打开Drug-AIGC的关键之作。让精确控制分子生成有了希望。...
-
【腾讯云HAI】都2023年了,HAI没玩过AIGC?
:::info 腾讯云高性能应用服务(Hyper Application lnventor,HA ,是一款面向 Al、科学计算的 GPU 应用服务产品,为开发者量身打造的澎湃算力平台。无需复杂配置,便可享受即开即用的GPU云服务体验。在 HA] 中,根据应...
-
Textual Inversion: 一种精调Stable Diffusion模型的方法
引言 最近的文本到图像Stable Diffusion (SD)模型已经证明了使用文本提示合成新颖场景的前所未有的能力。这些文本到图像的模型提供了通过自然语言指导创作的自由。然而,它们的使用受到用户描述特定或独特场景、艺术创作或新物理产品的能力的限制。...
-
【Stable Diffusion应用案例系列】【1】一键抠图--rembg插件安装与使用
《博主简介》 小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~ 👍感谢小伙伴们点赞、关注! 《------往期经典推荐----...
-
Whisper OpenAI开源语音识别模型
介绍 Whisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练...
-
whisper深入-语者分离
文章目录 学习目标:如何使用whisper 学习内容一:whisper 转文字 1.1 使用whisper.load_model( 方法下载,加载 1.2 使用实例对文件进行转录 1.3 实战 学习内容二:语者分离(pyannote.aud...
-
1、aigc图像相关
aigc图像相关 一、Diffusion webui 在autodl上部署一些问题 二、lora和kohyass (1)角色模型 (2)风格模型 (3)dreambooth (4)模型合并 (5)Lora加Adetail 其他 三、sd a...
-
如何用Stable Diffusion模型生成个人专属创意名片?
目录 1 什么是二维码? 2 什么是扩散模型? 3 Stable Diffusion环境搭建 4 开始制作创意名片 结语 1 什么是二维码? 二维码是一种用于存储和传输信息的方便而广泛使用的图像编码技术。它是由黑色方块和白色空白区...
-
Colossal-AI团队开源了SwiftInfer 大模型无限流式输入推理飙升46%
近日,国产开源项目SwiftInfer实现了无限流式输入推理,成功提升了大模型推理性能46%。这是一个重大突破,可以为多轮对话场景提供高效可靠的落地方案。 它采用了attention sink注意力机制、窗口注意力优化、KV Cache机制优化等方法,Sw...
-
AIGC之文本内容生成概述(下)——Transformer
在上一篇文章中,我们一口气介绍了LSTM、Word2Vec、GloVe、ELMo等四种模型的技术发展,以及每种模型的优缺点与应用场景,全文超过一万字,显得冗长且繁杂,在下文部分我们将分开介绍Transformer、BERT、GPT1/GPT2/GPT3/C...
-
学习实践-Whisper语音识别模型实战(部署+运行)
1、Whisper内容简单介绍 OpenAI的语音识别模型Whisper,Whisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言(98 种语言)...
-
13个优秀开源语音识别引擎
语音识别(ASR)在人机交互方面发挥着重要的作用,可用于:转录、翻译、听写、语音合成、关键字定位、语音日记、语言增强等场景。语音识别基本过程一般包括:分析音频、音频分解、格式转换、文本匹配,但实际的语音识别系统可能会更复杂,并且可能包括其他步骤和功能组件...
-
400万token上下文、推理再加速46%!最新开源方案升级MIT成果,推理成本再降低
22倍加速还不够,再来提升46%,而且方法直接开源! 这就是开源社区改进MIT爆火项目StreamingLLM的最新成果。 StreamingLLM可以在不牺牲生成效果、推理速度的前提下,实现多轮对话共400万个token,22.2倍推理速度提升。 该项...
-
使用LLaMA-Factory微调ChatGLM3
1、创建虚拟环境 略 2、部署LLaMA-Factory (1)下载LLaMA-Factory https://github.com/hiyouga/LLaMA-Factory (2)安装依赖 pip3 install -r requi...
-
大模型无限流式输入推理飙升46%!国产开源加速「全家桶」,打破多轮对话长度限制
在大型语言模型(LLM)的世界中,处理多轮对话一直是一个挑战。前不久麻省理工Guangxuan Xiao等人推出的StreamingLLM,能够在不牺牲推理速度和生成效果的前提下,可实现多轮对话总共400万个token的流式输入,22.2倍的推理速度提升...
-
如何在你的电脑上完成whisper的简单部署
如何在你的电脑上完成whisper的简单部署(超详细教程) 前言 一、显卡驱动、CUDA ToolKit、cuDNN的下载 1. 显卡驱动 2. CUDA ToolKit 3. cuDNN的安装 二、windows下安装conda 三、使...
-
使用PyTorch实现去噪扩散模型
在深入研究去噪扩散概率模型(DDPM 如何工作的细节之前,让我们先看看生成式人工智能的一些发展,也就是DDPM的一些基础研究。 VAE VAE 采用了编码器、概率潜在空间和解码器。在训练过程中,编码器预测每个图像的均值和方差。然后从高斯分布中对这些值进...
-
突破 Pytorch 核心点,自动求导 !!
嗨,我是小壮! 关于pytorch中的自动求导操作,介绍有关pytorch自动求导的概念. 自动求导是深度学习框架中的一项重要功能,它允许机器学习模型自动计算梯度,进而进行参数更新和优化。 PyTorch是一个流行的深度学习框架,它通过动态计算图和自动...
-
Meta最新模型LLaMA详解(含部署+论文)
来源:投稿 作者:毛华庆 编辑:学姐 前言 本课程来自深度之眼《大模型——前沿论文带读训练营》公开课,部分截图来自课程视频。 文章标题:LLaMA: Open and Efficient Foundation Language Mode...
-
【AI实战】llama.cpp量化cuBLAS编译;nvcc fatal:Value ‘native‘ is not defined for option ‘gpu-architecture‘
【AI实战】llama.cpp量化cuBLAS编译;nvcc fatal:Value 'native' is not defined for option 'gpu-architecture' llama.cpp量化介绍 llama.cpp 编...
-
使用Amazon SageMaker构建高质量AI作画模型Stable Diffusion
使用Amazon SageMaker构建高质量AI作画模型Stable Diffusion 0. 前言 1. Amazon SageMaker 与机器学习 1.1 机器学习流程 1.2 Amazon SageMaker 简介 1.3 Amaz...
-
Stable Diffusion实现之 Huggingface
Stable Diffusion 以及Huggingface的安装实现 介绍: Stable Diffusion AI是指将Stable Diffusion模型应用于人工智能领域的相关技术和方法。通常情况下,Stable Diffusion AI主...
-
[玩转AIGC]如何训练LLaMA2(模型训练、推理、代码讲解,并附可直接运行的kaggle连接)
目录 一、clone仓库 二、数据集下载与处理 1、数据集下载 2、数据集标记化(耗时较长) 三、修改配置 四、开始训练 五、模型推理 六、train.py训练代码讲解 1、导包 2、定义模型训练参数与相关设置 3、加载模型配置 4、迭代...
-
stable diffusion webui安装和运行中出现的bug及解决方式
webui的运行实在名为venv的虚拟环境中进行的,所以通过launch.py运行的时候,一定要先通过source venv/bin/activate激活虚拟环境venv。 1、报错:Couldn’t install gfpgan 原因: 代理的问题...
-
20分钟,使用Amazon SageMaker快速搭建属于自己的AIGC应用
真火! 作为最近一段时间人工智能领域内的顶流之一,AIGC(AI-Generated Content)早已火爆出圈,频登各大互联网平台热搜。 cite: 微软亚洲研究院官方微博 这段时间以来,基于深度学习的内容生成在图像、视频、语音、音乐、...
-
如何在亚马逊 SageMaker 进行 Stable Diffusion 模型在线服务部署
文章目录 前言 - 浅谈 AIGC AIGC - 引领人工智能走向春天 春天里盛开的 AI 绘画 AI 绘画之Stable Diffusion 2.0 登场 人人都有机会成为前沿的技术探索者 基于Amazon SageMaker进行Stab...
-
AI平台:NVIDIA Toronto AI Lab
站点网址:https://nv-tlabs.github.io...
-
精调训练中文LLaMA模型实战教程,民间羊驼模型
羊驼实战系列索引 博文1:本地部署中文LLaMA模型实战教程,民间羊驼模型博文2:本地训练中文LLaMA模型实战教程,民间羊驼模型博文3:精调训练中文LLaMA模型实战教程,民间羊驼模型(本博客) 简介 在学习完上篇【博文2:本地训练中文LLaM...
-
stable diffusion硬件要求
硬件要求# 内存# 建议使用不少于 16 GB 内存。在一些情况下,可能需要调高虚拟内存,以容纳模型文件。 存储# 建议准备 40 GB 以上的可用硬盘空间。 显卡# WARNING 注意显卡温度,有报道称显卡太热炸了。 显卡型号#...